原文:Brixi et al., bioRxiv 2025
DOI:10.1101/2025.02.18.638918
機構:Arc Institute、斯坦福大學、NVIDIA
摘要
Evo 2是Arc Institute、斯坦福大學及NVIDIA聯合團隊於2025年發布的生物基礎模型,訓練於9.3萬億DNA鹼基對、涵蓋所有生命領域基因組。Evo 2採用40億和70億參數兩種規模,實現了前所未有的100萬token上下文窗口和單核苷酸分辨率。該模型在零樣本設置下準確預測從非編碼致病突變到臨床意義重大的BRCA1變異的功能影響,並首次展示了通過推理時搜索實現表觀基因組結構的可控設計。
一、背景:從原核生物到真核生物的建模跨越
生命的根本指令由DNA序列編碼。雖然測序、合成和編輯基因組代碼的工具已經改變了生物學研究,但智能地組合新生物系統還需要對基因組編碼的巨大複雜性有深入理解。先前研究表明,在細菌基因組序列上訓練的機器學習模型可以建模DNA、RNA和蛋白質的功能,以及它們相互作用形成複雜分子機器的過程。
然而,將這一序列建模範式擴展到真核基因組需要在數據整理、模型架構、訓練和推理基礎設施以及推理時計算方面取得進展,以應對:
- 複雜的基因組架構:真核進化產生了廣泛的非編碼區域、選擇性剪接模式和多層表觀基因組控制
- 多細胞性和複雜特徵:這些特徵支撐著多細胞性、複雜特徵和真核生命獨有的智能行為的出現
因此,開發能夠跨越所有生命領域進行預測和設計的模型,需要訓練數據涵蓋完整的生物多樣性譜系。
二、技術架構:StripedHyena 2與百萬級上下文窗口
Evo 2採用StripedHyena 2架構,這是首個基於卷積的多混合架構。多混合架構是一類新的模型架構,旨在利用多種不同類型算子之間的協同作用,以條紋模式排列。
架構特點:
- 結合了三種不同變體的輸入依賴卷積算子和注意力機制
- 提高了在短序列和長序列上的訓練效率
- 在400億參數規模下,在16,000上下文長度上實現1.3倍加速
- 在100萬上下文長度上實現3倍加速
與高度優化的Transformer基線和基於遞歸或長卷積的上一代混合模型(如StripedHyena 1)相比,StripedHyena 2提供了顯著更高的吞吐量。該架構在DNA上的損失擴展也優於Transformer和StripedHyena 1。
兩階段訓練策略
Evo 2的訓練分為兩個階段:
- 第一階段:使用8,192 token的上下文長度進行預訓練,數據加權聚焦於基因窗口以學習功能遺傳元件
- 第二階段:通過多階段中期訓練將上下文擴展至100萬token,以學習跨長基因組距離的元件之間的關係
這種兩階段策略符合自然語言大型語言模型的最佳實踐,即在較短上下文長度上進行初始預訓練可以提高效率和整體模型質量。
上下文擴展能力
為了有效擴展到100萬鹼基對的上下文長度,研究團隊探索了不同的上下文擴展方法,發現使用旋轉嵌入的方法可以有效擴展上下文長度。通過多階段擴展階段,模型在100萬token上下文上實現了有效的召回能力,能夠從100萬鹼基對長的"乾草堆"中檢索100鹼基對的"針"。
三、訓練數據與開放科學承諾
Evo 2在名為OpenGenome2的新數據集上訓練,該數據集包含:
- 來自細菌、古菌、真核生物和噬菌體的超過8.8萬億核苷酸的精選、非冗餘核苷酸序列數據
- 70億參數版本:在2.4萬億token上訓練
- 400億參數版本:在9.3萬億token上訓練
安全考慮:出於安全考慮,訓練數據排除了感染真核宿主的病毒基因組。驗證表明,這些數據排除導致模型對真核病毒基因組序列的高困惑度,表明該領域的語言建模性能較弱,達到了預期的安全效果。
開源承諾:為促進開放科學和社區發展,研究團隊以開源許可免費發布了Evo 2的模型參數、訓練代碼、推理代碼和訓練數據。這使Evo 2成為迄今為止最大規模的完全開放AI模型之一,不僅在生物學領域,與基於Transformer架構的自然語言模型相比也是如此。
四、零樣本功能預測:跨越所有生命領域
4.1 跨域突變效應預測
Evo 2通過學習跨 vast 進化訓練數據集的序列似然,能夠在沒有任何任務特定微調或監督的情況下學習突變效應如何與生物功能相關。
主要發現:
- 在20個原核物種和16個真核物種中,模型似然的變化與已知的生物學約束一致
- 在編碼序列內,非同義變異、提前終止密碼子和移碼突變比同義突變引起更大的似然變化
- 在非編碼區域,tRNA和rRNA中的缺失比基因間和其他非編碼位點的缺失具有顯著更大的影響
- 400億參數模型對miRNA和snoRNA序列中的缺失表現出比70億參數模型更高的敏感性
4.2 深度突變掃描評估
通過將Evo 2的零樣本似然與深度突變掃描(DMS)的實驗測量進行比較:
- Evo 2的序列似然與細菌和人類蛋白質以及非編碼RNA分子的多種適應度定義相關
- 在預測細菌和人類蛋白質適應度方面與最先進的自回歸蛋白質語言模型具有競爭力
- 在非編碼RNA適應度預測方面達到了最先進的性能
4.3 外顯子-內含子邊界預測
利用Evo 2嵌入開發單核苷酸分辨率的外顯子標籤分類器,在八個不同物種上評估性能:
- Evo 2基於嵌入的分類器實現了優於Nucleotide Transformer和Evo 1訓練模型的性能
- AUROC值在0.82-0.99之間
- 表明Evo 2嵌入可用於幫助功能註釋 poorly characterized 基因組的遺傳元件
4.4 基因必需性預測
使用零樣本似然評分提前終止密碼子插入對細菌和噬菌體基因組的影響:
- Evo 2模型在預測基因必需性方面與Evo 1的性能相匹配
- 擴展到真核生物的整體生物體適應度效應,使用長非編碼RNA(lncRNA)必需性研究的數據
- Evo 2模型在評估人工干擾的影響方面顯著優於Nucleotide Transformer和其他基於序列的指標
五、臨床變異效應預測:非編碼變異的突破
Evo 2在人類臨床變異效應預測方面取得了重要進展。
ClinVar變異致病性預測
編碼區SNV:
- 400億和70億參數模型分別排名第四和第五
- 僅次於AlphaMissense、ESM-1b和GPN-MSA
編碼區非SNV變異(插入和缺失):
- Evo 2模型在零樣本分類中優於其他模型
非編碼變異:
- Evo 2在SNV和非SNV方面都超越了其他模型
剪接變異效應預測
在SpliceVarDB的剪接變異效應預測中:
- 對於外顯子和內含子剪接變異效應預測,Evo 2模型實現了最高的零樣本性能
這些結果突出了Evo 2在預測人類編碼SNV的致病性效應方面與AlphaMissense和GPN-MSA等專業模型的競爭力,同時為非SNV、非編碼和剪接相關變異的零樣本評分建立了新的最先進水平。
BRCA1/BRCA2變異預測
在BRCA1基因的變異功能後果數據集上:
- Evo 2對編碼SNV的零樣本預測表現強勁
- 為BRCA1非編碼SNV設定了新的最先進水平
- 當編碼和非編碼變異一起評估時,優於所有其他模型
在BRCA2變異數據集上也觀察到一致的結果。
監督分類器性能:通過利用Evo 2嵌入在監督分類器中,研究團隊在BRCA1編碼SNV測試集上實現了AUROC = 0.94、AUPRC = 0.84的性能,超越了所有基準。
六、機制可解釋性:從分子到基因組尺度的特徵
為探究Evo 2捕獲的內容,研究團隊使用稀疏自編碼器(SAEs)對其表徵進行訓練,將模型分解為稀疏、高維表徵,其中單個潛在維度通常表現出人類可解釋的模式。
6.1 移動遺傳元件特徵
研究發現Evo 2開發了捕獲移動遺傳元件進化特徵的內部表徵:
- 特定特徵與原核生物中的前噬菌體區域密切相關
- 在CRISPR陣列中的間隔序列上激活,表明Evo 2將CRISPR間隔序列與噬菌體序列相關聯
- 該特徵還在其他未被註釋為噬菌體的區域上激活,這些區域包含與前噬菌體相關的基因
6.2 多模態結構特徵
研究還識別了與以下對應的特徵:
- 開放閱讀框(ORF)、基因間區域、tRNA和rRNA
- 蛋白質二級結構如α-螺旋和β-摺疊
這些關聯突出了基因組語言建模的多模態性質,捕獲了超越DNA水平的高階結構資訊。
6.3 人類基因組特徵
在人類基因組中,研究識別了:
- 對移碼和提前終止突變優先激活的突變敏感特徵
- 在人類基因啟動子區域的DNA基序上激活的特徵,與已知的人類轉錄因子結合位點密切相關
- 與人類基因組外顯子和內含子架構密切相關的特徵
這些特徵還可用於註釋滅絕物種的基因組,研究團隊在猛獁象基因組部分的成功映射證明了這一點。
七、基因組尺度生成:從線粒體到染色體
7.1 基因完成與提示響應
評估Evo 2對基因組提示的響應能力,研究團隊選擇了六個系統發育多樣的物種,涵蓋古菌、原核生物和四個真核譜系(真菌、原生生物、植物和動物)。
實驗設計:
- 選擇高度保守的代表性基因
- 為Evo 2提供由1,000鹼基對上游序列加上目標基因前500-1000鹼基對組成的上下文
結果:Evo 2在基因序列完成方面實現了高準確性,表明模型響應提示以實現上下文序列設計。氨基酸回收率隨規模提高,Evo 2 400億參數模型表現最佳。
7.2 線粒體基因組生成
使用Evo 2 400億參數模型,提示人類線粒體DNA的部分,生成250條獨特的16 kb線粒體序列:
- Evo 2能夠生成具有正確數量編碼序列(CDS)、tRNA和rRNA基因的線粒體基因組
- BLASTp分析顯示Evo 2創建了多樣化的線粒體基因,與不同生物體(從魚類到哺乳動物)具有不同程度的序列同一性
- 生成的序列還保持了適當的同線性,同時與自然序列相比表現出相當大的序列多樣化
7.3 最小細菌基因組生成
利用Evo 2的百萬鹼基對上下文窗口,研究團隊生成了與小型原核基因組相同規模的DNA序列:
- 以生殖器支原體(M. genitalium)為模型系統,其基因組長度約580 kb
- 使用參考序列的前10.5 kb片段作為提示生成十條基因組
- 對Prodigal預測的ORF進行HHpred分析發現,近70%的Evo 2 400億參數基因包含顯著的Pfam命中,比Evo 1 131k(18%)顯著提高
7.4 真核染色體生成
為評估Evo 2的真核序列生成能力:
- 提示Evo 2使用釀酒酵母(S. cerevisiae)III號染色體(約316 kb)的10.5 kb生成330 kb DNA
- Evo 2成功生成了具有預測tRNA、適當定位的啟動子和表現出內含子結構的基因的類真核DNA序列
- 生成的蛋白質顯示出與自然酵母基因的序列和結構相似性
局限性:tRNA和基因特徵的密度低於天然酵母基因組中的密度。研究團隊指出,這些基因組序列是通過簡單的、無約束的自回歸生成產生的,生成基因組的自然性改進很可能可以通過優化的推理策略或模型改進來解決。
八、推理時搜索:生成式表觀基因組學
研究團隊開發了一種使用Evo 2生成長基因組序列的方法,可以指定染色質可及區域的位置和長度。這是生物學語言建模中推理時擴展結果的首個例子。
8.1 技術方法
為實現染色質可及性的可控設計:
- 使用Enformer和Borzoi模型集合來指導Evo 2的自回歸生成
- 評分函數根據生成的序列的預測染色質可及性與期望模式的匹配程度來接受或拒絕生成的序列
- 通過實施束搜索來提高設計過程的效率
8.2 推理時擴展效應
增加束搜索寬度(即通過採樣更多128 bp塊並僅生成每個束搜索步驟中得分最高的前兩個塊)導致設計成功的大幅改善:
- 使用AUROC指標量化連續值Enformer和Borzoi預測分離指定開放或封閉染色質區域的能力
- 採樣30個或更多128 bp塊並在束搜索的每個步驟中選擇前兩個塊足以實現AUROC約0.9的最終設計
研究團隊觀察到可預測的對數線性關係:增加束搜索寬度從而增加推理時計算,導致更好質量的設計。
8.3 多樣化模式設計
為證明該方法的通用性,研究團隊設計了不同長度和位置的峰,以摩爾斯電碼編寫簡單消息:
- 窄峰表示點,寬峰表示劃,不可訪問區域表示空格
- 設計的消息包括"LO"(互聯網上發送的第一條消息)、"ARC"(進行該設計運行的研究所名稱)和"EVO2"(模型名稱)
- 在這些多樣化消息的編碼中觀察到始終強勁的設計成功
重要意義:這是生物學語言建模中推理時擴展結果的首個例子,展示了增加推理時計算可預測地改善複雜設計任務性能的關係。
九、生物安全考量與風險評估
與能夠智能組合新系統的生物基礎模型相關的潛在利益也伴隨著安全、安保和倫理考量。研究團隊根據Responsible AI x Biodesign承諾,在開源發布前預先評估和緩解了潛在擔憂。
9.1 病毒生成風險緩解
通過從訓練數據中排除感染真核生物的病毒的基因組序列:
- 旨在確保公開共享的模型不傳播操縱和設計致病性人類病毒的能力
- 數據排除達到了預期效果,削弱了對人類病毒的語言建模性能和下游突變效應預測
- 紅隊測試直接引發致病性人類病毒蛋白質顯示,在該領域生成實際上是隨機的,有效防止了Evo 2的人類病毒生成
9.2 祖先偏倚評估
納入真核數據還引入了使用Evo 2幫助解釋人類遺傳變異的可能性:
- 研究團隊查詢了Evo 2的無種群設計是否緩解了模型預測中的祖先偏倚
- 顯示Evo 2在跨人類種群中相當好地泛化
- 這是迄今為止最全面的評估工作之一,同時考慮了預防性和訪問性
十、結論與展望
Evo 2代表了生物基礎模型的重要進展,在分子、系統和基因組尺度上實現了跨所有生命領域的預測和生成任務。
主要成就
- 通過從9萬億token的基因組序列中學習DNA的統計特性,Evo 2能夠預測突變對蛋白質功能、ncRNA功能和生物體適應度的影響