原文:Nguyen et al., Science 2024
DOI:10.1126/science.ado9336
機構:Arc Institute & 斯坦福大學

摘要

Evo是Arc Institute與斯坦福大學聯合團隊於2024年發表的基因組基礎模型,具有70億參數、13.1萬token上下文長度,採用StripedHyena架構實現單核苷酸分辨率的長序列建模。Evo在270萬原核生物和噬菌體基因組上訓練,展現了跨DNA、RNA和蛋白質模態的零樣本功能預測能力,並成功實現了CRISPR-Cas系統和轉座子系統的多模態生成設計,代表了基因組基礎模型的重要進展。

一、背景:跨越模態與尺度的生物學建模挑戰

生命的根本指令編碼在所有生物體的DNA序列中。理解這些指令可以深化對生物過程的認識,並為重新編程生物學以創造有用技術開闢新途徑。然而,即使是最簡單的微生物基因組也極其複雜,數百萬鹼基對編碼著DNA、RNA和蛋白質之間的相互作用——即分子生物學中心法則的三種模態,它們是細胞功能的關鍵執行者。

這種複雜性存在於多個尺度,從單個分子到整個基因組,代表著在進化時間中被功能選擇的廣闊遺傳資訊景觀。

現有方法的局限:

一個能夠統一分子、系統和基因組尺度資訊的DNA模型,可以從大基因組區域學習以捕捉系統範圍的相互作用,從而實現更複雜生物功能的設計。

技術障礙:將大型語言模型技術應用於DNA序列建模面臨特定挑戰。主流的密集Transformer架構在輸入序列長度相對於模型寬度增長時產生高昂計算成本(二次方縮放),且在單核苷酸或字節級分辨率上通常表現不及粗分辨率模型。因此,基於Transformer的DNA模型受限於短上下文長度,並採用將核苷酸聚合成token的方案,從而犧牲了單核苷酸分辨率。

二、技術架構:StripedHyena與長序列建模

Evo採用StripedHyena架構,這是一個混合了注意力機制和數據控制卷積算子的模型設計。具體而言:

這種混合設計旨在結合兩種機制的優勢:

Hyena層屬於深度信號處理原語類別,通過結構化算子實現高效、輸入依賴的計算,這些算子兼容快速乘法算法,可在亞二次方時間內評估。這種設計使Evo能夠在單核苷酸分辨率上處理長達131,072個token的序列,同時保持計算效率。

擴展定律分析

研究團隊進行了DNA預訓練的擴展定律分析,系統比較了Transformer++、Mamba、Hyena和StripedHyena四種架構:

三、訓練數據與擴展定律

Evo在名為OpenGenome的數據集上訓練,包含:

安全考慮:出於生物安全考慮,訓練數據排除了感染真核宿主的病毒。

預訓練階段:

擴展定律發現:DNA序列建模遵循與自然語言和視覺類似的規律:隨著計算資源、模型規模和數據量的增加,模型性能呈現可預測的提升。對於Evo 7B模型,估計的計算最優token數為2500億,而實際在3000億token上訓練,處於計算最優模型規模的17%偏移位置。

四、零樣本功能預測:跨模態能力評估

4.1 蛋白質功能預測

Evo在零樣本設置下評估了突變對蛋白質功能的影響預測能力。使用深度突變掃描(DMS)數據集,通過語言模型似然或偽似然預測氨基酸序列的實驗適應度分數。

主要發現:

局限性:人類蛋白質DMS數據集上,Evo無法預測突變對適應度的影響,這可能是因為預訓練數據集僅由原核序列組成。但研究觀察到野生型序列的語言模型困惑度與適應度預測性能之間存在強關聯,暗示通過在哺乳動物編碼序列上微調或未來預訓練,可能將Evo的性能擴展到細菌蛋白質之外。

4.2 非編碼RNA功能預測

Evo在非編碼RNA(ncRNA)如tRNA、核糖體RNA和核酶的突變效應預測任務上進行了評估。

主要發現:

4.3 調控DNA活性預測

啟動子活性預測:

蛋白質表達預測:

五、多模態生成設計:從CRISPR到轉座子

5.1 CRISPR-Cas系統的代碼設計

Evo被用於生成包含蛋白質和ncRNA組分相互作用的CRISPR-Cas分子複合物。

微調策略:

生成結果:一些預測的ORF與最接近的自然Cas9的蛋白質序列相似度低於40%

功能驗證:在約200萬Evo生成序列中,篩選出11個具有穩健預測pLDDT分數的Cas9系統進行功能驗證。其中一種名為EvoCas9-1的生成物表現出穩健活性:

5.2 IS200/IS605轉座子系統

Evo還被用於生成IS200/IS605家族的轉座子系統,這些系統通過TnpA轉座酶與末端髮夾的相互作用催化"剝離-粘貼"轉座。

微調與生成:

實驗驗證:在48個實驗測試的Evo生成設計中,11個IS200樣元件和3個IS605樣元件表現出體外切除和插入的證據,成功率接近50%。這些活性元件使用多樣化的髮夾,編碼的TnpA蛋白質與微調數據庫的序列同一性低至67%。

重要意義:這是首次使用語言模型代碼設計蛋白質-DNA系統的例子。

六、基因組尺度學習:基因必需性與序列生成

6.1 基因必需性預測

通過在131,072 token上下文上進行第二階段的預訓練,Evo能夠分析整個基因組。研究評估了模型對基因必需性的敏感性:

主要發現:在58個全基因組必需性研究中,Evo在66k上下文中的對數似然變化與基因必需性在49個基因組中顯著相關。提供額外基因組上下文(從僅基因序列到8k上下文)顯著改善了性能,但從8k到66k上下文的平均性能相當。

6.2 基因組尺度序列生成

Evo被用於生成16條約100萬鹼基的序列,代表超過模型上下文長度7倍的規模。

生成質量:

局限性:

這些結果與生成模型在其他領域(如自然語言或圖像生成)的發現一致:直接從預訓練模型採樣通常產生語法正確但局部偏向更簡單構造、全局不連貫的序列。

七、討論:能力邊界與未來方向

Evo代表了基因組基礎模型的重要進展,在分子、系統和基因組尺度上實現了預測和生成任務。然而,作為第一代DNA基礎模型,它面臨若干技術局限和挑戰。

7.1 技術局限

預訓練數據方面:

7.2 生物安全考量

能夠進行基因組尺度設計的模型具有推進治療發現、可持續性和基礎生物學理解的潛力,但同時也引發生物安全和倫理考量。研究團隊採取了以下措施:

7.3 未來方向

未來研究方向

  • 增加模型規模
  • 擴展上下文長度
  • 引入更多樣化的預訓練數據(包括真核基因組)
  • 結合大規模基因組修飾的進展
  • 將生物工程和設計的範圍擴展到整個基因組尺度

真核基因組的整合將需要考慮這些基因組的更高複雜性,並在工程、計算和安全相關的模型對齊方面進行大量資源投入。

參考資料:
[1] Nguyen E, Poli M, Durrant MG, et al. Sequence modeling and design from molecular to genome scale with Evo. Science. 2024;386(6723):eado9336.

← 返回博客列表