原文:Nguyen et al., Science 2024
DOI:10.1126/science.ado9336
機構:Arc Institute & 斯坦福大學
摘要
Evo是Arc Institute與斯坦福大學聯合團隊於2024年發表的基因組基礎模型,具有70億參數、13.1萬token上下文長度,採用StripedHyena架構實現單核苷酸分辨率的長序列建模。Evo在270萬原核生物和噬菌體基因組上訓練,展現了跨DNA、RNA和蛋白質模態的零樣本功能預測能力,並成功實現了CRISPR-Cas系統和轉座子系統的多模態生成設計,代表了基因組基礎模型的重要進展。
一、背景:跨越模態與尺度的生物學建模挑戰
生命的根本指令編碼在所有生物體的DNA序列中。理解這些指令可以深化對生物過程的認識,並為重新編程生物學以創造有用技術開闢新途徑。然而,即使是最簡單的微生物基因組也極其複雜,數百萬鹼基對編碼著DNA、RNA和蛋白質之間的相互作用——即分子生物學中心法則的三種模態,它們是細胞功能的關鍵執行者。
這種複雜性存在於多個尺度,從單個分子到整個基因組,代表著在進化時間中被功能選擇的廣闊遺傳資訊景觀。
現有方法的局限:
- 現有機器學習方法主要集中在模態特異性模型,分別針對蛋白質、編碼序列、RNA或調控DNA進行優化
- 生成式應用局限於單分子、簡單複合物或短DNA序列的設計
- 複雜的生物過程(如基因調控、CRISPR免疫或遺傳轉座)依賴於多種模態分子之間的眾多相互作用
一個能夠統一分子、系統和基因組尺度資訊的DNA模型,可以從大基因組區域學習以捕捉系統範圍的相互作用,從而實現更複雜生物功能的設計。
技術障礙:將大型語言模型技術應用於DNA序列建模面臨特定挑戰。主流的密集Transformer架構在輸入序列長度相對於模型寬度增長時產生高昂計算成本(二次方縮放),且在單核苷酸或字節級分辨率上通常表現不及粗分辨率模型。因此,基於Transformer的DNA模型受限於短上下文長度,並採用將核苷酸聚合成token的方案,從而犧牲了單核苷酸分辨率。
二、技術架構:StripedHyena與長序列建模
Evo採用StripedHyena架構,這是一個混合了注意力機制和數據控制卷積算子的模型設計。具體而言:
- Evo包含32個塊,其中29層使用Hyena層(數據控制卷積算子)
- 3層(10%)使用配備旋轉位置嵌入(RoPE)的多頭注意力
這種混合設計旨在結合兩種機制的優勢:
- Hyena層通過短卷積和長卷積濾波器的組合以輸入依賴方式處理序列,特別擅長過濾DNA中可能出現的噪聲模式並將單個核苷酸聚合成基序
- 注意力層提供全局上下文聚合能力
Hyena層屬於深度信號處理原語類別,通過結構化算子實現高效、輸入依賴的計算,這些算子兼容快速乘法算法,可在亞二次方時間內評估。這種設計使Evo能夠在單核苷酸分辨率上處理長達131,072個token的序列,同時保持計算效率。
擴展定律分析
研究團隊進行了DNA預訓練的擴展定律分析,系統比較了Transformer++、Mamba、Hyena和StripedHyena四種架構:
- 在計算最優協議下,Transformer++在所有計算預算下均產生顯著更差的困惑度,反映了該架構在字節分辨率上的低效
- 狀態空間和深度信號處理架構均表現出優於Transformer++的擴展率,其中Hyena和StripedHyena表現最佳
三、訓練數據與擴展定律
Evo在名為OpenGenome的數據集上訓練,包含:
- 超過8萬個細菌和古菌基因組
- 數百萬預測的噬菌體和質粒序列
- 總計3000億核苷酸token
安全考慮:出於生物安全考慮,訓練數據排除了感染真核宿主的病毒。
預訓練階段:
- 第一階段:使用8,192 token的上下文長度
- 第二階段:將上下文擴展至131,072 token
擴展定律發現:DNA序列建模遵循與自然語言和視覺類似的規律:隨著計算資源、模型規模和數據量的增加,模型性能呈現可預測的提升。對於Evo 7B模型,估計的計算最優token數為2500億,而實際在3000億token上訓練,處於計算最優模型規模的17%偏移位置。
四、零樣本功能預測:跨模態能力評估
4.1 蛋白質功能預測
Evo在零樣本設置下評估了突變對蛋白質功能的影響預測能力。使用深度突變掃描(DMS)數據集,通過語言模型似然或偽似然預測氨基酸序列的實驗適應度分數。
主要發現:
- 在原核蛋白質DMS數據集上,Evo的表現超過了所有其他測試的核苷酸模型,包括專門在編碼序列上訓練的GenSLM模型
- 達到了與領先蛋白質特異性語言模型相當的性能
- 這表明儘管Evo在長基因組序列上訓練且沒有顯式的編碼序列註釋,它仍能獲得對蛋白質編碼序列的深入理解
局限性:在人類蛋白質DMS數據集上,Evo無法預測突變對適應度的影響,這可能是因為預訓練數據集僅由原核序列組成。但研究觀察到野生型序列的語言模型困惑度與適應度預測性能之間存在強關聯,暗示通過在哺乳動物編碼序列上微調或未來預訓練,可能將Evo的性能擴展到細菌蛋白質之外。
4.2 非編碼RNA功能預測
Evo在非編碼RNA(ncRNA)如tRNA、核糖體RNA和核酶的突變效應預測任務上進行了評估。
主要發現:
- Evo再次優於所有其他測試的核苷酸語言模型,包括專門在ncRNA序列上訓練的RNA-FM模型
- 在測量5S rRNA突變對大腸桿菌生長率影響的研究中,Evo表現出較強的預測性能(Spearman相關系數r = 0.60)
- 這些結果證明Evo能夠學習ncRNA功能的突變效應,超越了蛋白質序列的範疇
4.3 調控DNA活性預測
啟動子活性預測:
- Evo的零樣本似然與四個獨立研究中的啟動子活性存在非零相關性(平均Spearman r = 0.43)
- 超過了序列GC含量和GenSLM的零樣本似然
- 當結合Evo嵌入與監督CNN架構時,性能接近最先進的啟動子活性預測方法Promoter Calculator
蛋白質表達預測:
- 單獨RBS序列的零樣本似然相關性較弱(r = 0.17)
- 當連接啟動子和RBS序列後,相關性顯著提高
五、多模態生成設計:從CRISPR到轉座子
5.1 CRISPR-Cas系統的代碼設計
Evo被用於生成包含蛋白質和ncRNA組分相互作用的CRISPR-Cas分子複合物。
微調策略:
- 在72,831個CRISPR-Cas位點數據集上微調
- 添加Cas9、Cas12和Cas13的特殊提示token
- 模型能夠生成包含相應Cas編碼序列和CRISPR陣列的連貫序列
生成結果:一些預測的ORF與最接近的自然Cas9的蛋白質序列相似度低於40%。
功能驗證:在約200萬Evo生成序列中,篩選出11個具有穩健預測pLDDT分數的Cas9系統進行功能驗證。其中一種名為EvoCas9-1的生成物表現出穩健活性:
- 重組表達和純化後與化學合成的Evo生成sgRNA配對
- 在體外切割活性上與SpCas9相當
- EvoCas9-1氨基酸序列與微調數據庫中最接近的Cas9有79.9%的同一性
- 與SpCas9有73.1%的同一性
5.2 IS200/IS605轉座子系統
Evo還被用於生成IS200/IS605家族的轉座子系統,這些系統通過TnpA轉座酶與末端髮夾的相互作用催化"剝離-粘貼"轉座。
微調與生成:
- 在10,720個IS605元件和219,866個IS200元件上微調
- 模型學會了MGE邊界的表示
- 能夠使用一端的資訊指定另一端,反映了對兩個末端元件緊密進化聯繫的理解
實驗驗證:在48個實驗測試的Evo生成設計中,11個IS200樣元件和3個IS605樣元件表現出體外切除和插入的證據,成功率接近50%。這些活性元件使用多樣化的髮夾,編碼的TnpA蛋白質與微調數據庫的序列同一性低至67%。
重要意義:這是首次使用語言模型代碼設計蛋白質-DNA系統的例子。
六、基因組尺度學習:基因必需性與序列生成
6.1 基因必需性預測
通過在131,072 token上下文上進行第二階段的預訓練,Evo能夠分析整個基因組。研究評估了模型對基因必需性的敏感性:
- 在每個編碼序列開頭插入提前終止密碼子
- 測量這些變化對Evo似然的影響
主要發現:在58個全基因組必需性研究中,Evo在66k上下文中的對數似然變化與基因必需性在49個基因組中顯著相關。提供額外基因組上下文(從僅基因序列到8k上下文)顯著改善了性能,但從8k到66k上下文的平均性能相當。
6.2 基因組尺度序列生成
Evo被用於生成16條約100萬鹼基的序列,代表超過模型上下文長度7倍的規模。
生成質量:
- 使用物種級token提示模型生成細菌基因組
- 生成的序列具有與自然基因組幾乎相同的編碼密度,遠高於隨機序列
- 可視化顯示自然序列和生成序列都呈現相似的編碼組織模式,相鄰序列通常具有相同的鏈取向
- 使用ESMFold獲得的蛋白質結構預測顯示幾乎所有序列都具有預測的二級結構和球狀摺疊
局限性:
- 生成序列不包含許多指示完整基因組的高度保守標記基因
- 在約1600萬鹼基樣本序列中僅生成3個rRNA
- 許多蛋白質結構預測置信度較低,偏向進化上更簡單的α-螺旋二級結構
- 與自然蛋白質數據庫的匹配有限
這些結果與生成模型在其他領域(如自然語言或圖像生成)的發現一致:直接從預訓練模型採樣通常產生語法正確但局部偏向更簡單構造、全局不連貫的序列。
七、討論:能力邊界與未來方向
Evo代表了基因組基礎模型的重要進展,在分子、系統和基因組尺度上實現了預測和生成任務。然而,作為第一代DNA基礎模型,它面臨若干技術局限和挑戰。
7.1 技術局限
預訓練數據方面:
- Evo在3000億原核token上訓練,僅佔公開可用基因組數據的極小部分
- 由於模型僅在原核數據上訓練,預測人類蛋白質突變功能效應的能力受限
- 許多CRISPR-Cas生成物存在明顯問題序列,如缺失或截斷的cas基因
- 在基因組尺度上,Evo難以包含關鍵標記基因如完整的rRNA集合
7.2 生物安全考量
能夠進行基因組尺度設計的模型具有推進治療發現、可持續性和基礎生物學理解的潛力,但同時也引發生物安全和倫理考量。研究團隊採取了以下措施:
- 排除真核病毒的安全預防措施
- 開源模型以促進透明度和與更廣泛科學社區的對話
7.3 未來方向
未來研究方向
- 增加模型規模
- 擴展上下文長度
- 引入更多樣化的預訓練數據(包括真核基因組)
- 結合大規模基因組修飾的進展
- 將生物工程和設計的範圍擴展到整個基因組尺度
真核基因組的整合將需要考慮這些基因組的更高複雜性,並在工程、計算和安全相關的模型對齊方面進行大量資源投入。
參考資料:
[1] Nguyen E, Poli M, Durrant MG, et al. Sequence modeling and design from molecular to genome scale with Evo. Science. 2024;386(6723):eado9336.