原文:Brixi et al., bioRxiv 2025
DOI:10.1101/2025.02.18.638918
機構:Arc Institute、斯坦福大學、NVIDIA

摘要

Evo 2是Arc Institute、斯坦福大學及NVIDIA聯合團隊於2025年發布的生物基礎模型,訓練於9.3萬億DNA鹼基對、涵蓋所有生命領域基因組。Evo 2採用40億和70億參數兩種規模,實現了前所未有的100萬token上下文窗口和單核苷酸分辨率。該模型在零樣本設置下準確預測從非編碼致病突變到臨床意義重大的BRCA1變異的功能影響,並首次展示了通過推理時搜索實現表觀基因組結構的可控設計。

一、背景:從原核生物到真核生物的建模跨越

生命的根本指令由DNA序列編碼。雖然測序、合成和編輯基因組代碼的工具已經改變了生物學研究,但智能地組合新生物系統還需要對基因組編碼的巨大複雜性有深入理解。先前研究表明,在細菌基因組序列上訓練的機器學習模型可以建模DNA、RNA和蛋白質的功能,以及它們相互作用形成複雜分子機器的過程。

然而,將這一序列建模範式擴展到真核基因組需要在數據整理、模型架構、訓練和推理基礎設施以及推理時計算方面取得進展,以應對:

因此,開發能夠跨越所有生命領域進行預測和設計的模型,需要訓練數據涵蓋完整的生物多樣性譜系。

二、技術架構:StripedHyena 2與百萬級上下文窗口

Evo 2採用StripedHyena 2架構,這是首個基於卷積的多混合架構。多混合架構是一類新的模型架構,旨在利用多種不同類型算子之間的協同作用,以條紋模式排列。

架構特點:

與高度優化的Transformer基線和基於遞歸或長卷積的上一代混合模型(如StripedHyena 1)相比,StripedHyena 2提供了顯著更高的吞吐量。該架構在DNA上的損失擴展也優於Transformer和StripedHyena 1。

兩階段訓練策略

Evo 2的訓練分為兩個階段:

這種兩階段策略符合自然語言大型語言模型的最佳實踐,即在較短上下文長度上進行初始預訓練可以提高效率和整體模型質量。

上下文擴展能力

為了有效擴展到100萬鹼基對的上下文長度,研究團隊探索了不同的上下文擴展方法,發現使用旋轉嵌入的方法可以有效擴展上下文長度。通過多階段擴展階段,模型在100萬token上下文上實現了有效的召回能力,能夠從100萬鹼基對長的"乾草堆"中檢索100鹼基對的"針"

三、訓練數據與開放科學承諾

Evo 2在名為OpenGenome2的新數據集上訓練,該數據集包含:

安全考慮:出於安全考慮,訓練數據排除了感染真核宿主的病毒基因組。驗證表明,這些數據排除導致模型對真核病毒基因組序列的高困惑度,表明該領域的語言建模性能較弱,達到了預期的安全效果。

開源承諾:為促進開放科學和社區發展,研究團隊以開源許可免費發布了Evo 2的模型參數、訓練代碼、推理代碼和訓練數據。這使Evo 2成為迄今為止最大規模的完全開放AI模型之一,不僅在生物學領域,與基於Transformer架構的自然語言模型相比也是如此。

四、零樣本功能預測:跨越所有生命領域

4.1 跨域突變效應預測

Evo 2通過學習跨 vast 進化訓練數據集的序列似然,能夠在沒有任何任務特定微調或監督的情況下學習突變效應如何與生物功能相關。

主要發現:

4.2 深度突變掃描評估

通過將Evo 2的零樣本似然與深度突變掃描(DMS)的實驗測量進行比較:

4.3 外顯子-內含子邊界預測

利用Evo 2嵌入開發單核苷酸分辨率的外顯子標籤分類器,在八個不同物種上評估性能:

4.4 基因必需性預測

使用零樣本似然評分提前終止密碼子插入對細菌和噬菌體基因組的影響:

五、臨床變異效應預測:非編碼變異的突破

Evo 2在人類臨床變異效應預測方面取得了重要進展。

ClinVar變異致病性預測

編碼區SNV:

編碼區非SNV變異(插入和缺失):

非編碼變異:

剪接變異效應預測

在SpliceVarDB的剪接變異效應預測中:

這些結果突出了Evo 2在預測人類編碼SNV的致病性效應方面與AlphaMissense和GPN-MSA等專業模型的競爭力,同時為非SNV、非編碼和剪接相關變異的零樣本評分建立了新的最先進水平

BRCA1/BRCA2變異預測

在BRCA1基因的變異功能後果數據集上:

在BRCA2變異數據集上也觀察到一致的結果。

監督分類器性能:通過利用Evo 2嵌入在監督分類器中,研究團隊在BRCA1編碼SNV測試集上實現了AUROC = 0.94、AUPRC = 0.84的性能,超越了所有基準。

六、機制可解釋性:從分子到基因組尺度的特徵

為探究Evo 2捕獲的內容,研究團隊使用稀疏自編碼器(SAEs)對其表徵進行訓練,將模型分解為稀疏、高維表徵,其中單個潛在維度通常表現出人類可解釋的模式。

6.1 移動遺傳元件特徵

研究發現Evo 2開發了捕獲移動遺傳元件進化特徵的內部表徵:

6.2 多模態結構特徵

研究還識別了與以下對應的特徵:

這些關聯突出了基因組語言建模的多模態性質,捕獲了超越DNA水平的高階結構資訊。

6.3 人類基因組特徵

在人類基因組中,研究識別了:

這些特徵還可用於註釋滅絕物種的基因組,研究團隊在猛獁象基因組部分的成功映射證明了這一點。

七、基因組尺度生成:從線粒體到染色體

7.1 基因完成與提示響應

評估Evo 2對基因組提示的響應能力,研究團隊選擇了六個系統發育多樣的物種,涵蓋古菌、原核生物和四個真核譜系(真菌、原生生物、植物和動物)。

實驗設計:

結果:Evo 2在基因序列完成方面實現了高準確性,表明模型響應提示以實現上下文序列設計。氨基酸回收率隨規模提高,Evo 2 400億參數模型表現最佳。

7.2 線粒體基因組生成

使用Evo 2 400億參數模型,提示人類線粒體DNA的部分,生成250條獨特的16 kb線粒體序列:

7.3 最小細菌基因組生成

利用Evo 2的百萬鹼基對上下文窗口,研究團隊生成了與小型原核基因組相同規模的DNA序列:

7.4 真核染色體生成

為評估Evo 2的真核序列生成能力:

局限性:tRNA和基因特徵的密度低於天然酵母基因組中的密度。研究團隊指出,這些基因組序列是通過簡單的、無約束的自回歸生成產生的,生成基因組的自然性改進很可能可以通過優化的推理策略或模型改進來解決。

八、推理時搜索:生成式表觀基因組學

研究團隊開發了一種使用Evo 2生成長基因組序列的方法,可以指定染色質可及區域的位置和長度。這是生物學語言建模中推理時擴展結果的首個例子。

8.1 技術方法

為實現染色質可及性的可控設計:

8.2 推理時擴展效應

增加束搜索寬度(即通過採樣更多128 bp塊並僅生成每個束搜索步驟中得分最高的前兩個塊)導致設計成功的大幅改善:

研究團隊觀察到可預測的對數線性關係:增加束搜索寬度從而增加推理時計算,導致更好質量的設計。

8.3 多樣化模式設計

為證明該方法的通用性,研究團隊設計了不同長度和位置的峰,以摩爾斯電碼編寫簡單消息:

重要意義:這是生物學語言建模中推理時擴展結果的首個例子,展示了增加推理時計算可預測地改善複雜設計任務性能的關係。

九、生物安全考量與風險評估

與能夠智能組合新系統的生物基礎模型相關的潛在利益也伴隨著安全、安保和倫理考量。研究團隊根據Responsible AI x Biodesign承諾,在開源發布前預先評估和緩解了潛在擔憂。

9.1 病毒生成風險緩解

通過從訓練數據中排除感染真核生物的病毒的基因組序列:

9.2 祖先偏倚評估

納入真核數據還引入了使用Evo 2幫助解釋人類遺傳變異的可能性:

十、結論與展望

Evo 2代表了生物基礎模型的重要進展,在分子、系統和基因組尺度上實現了跨所有生命領域的預測和生成任務。

主要成就