原文:Brixi et al., bioRxiv 2025
DOI:10.1101/2025.02.18.638918
机构:Arc Institute、斯坦福大学、NVIDIA

摘要

Evo 2是Arc Institute、斯坦福大学及NVIDIA联合团队于2025年发布的生物基础模型,训练于9.3万亿DNA碱基对、涵盖所有生命领域基因组。Evo 2采用40亿和70亿参数两种规模,实现了前所未有的100万token上下文窗口和单核苷酸分辨率。该模型在零样本设置下准确预测从非编码致病突变到临床意义重大的BRCA1变异的功能影响,并首次展示了通过推理时搜索实现表观基因组结构的可控设计。

一、背景:从原核生物到真核生物的建模跨越

生命的根本指令由DNA序列编码。虽然测序、合成和编辑基因组代码的工具已经改变了生物学研究,但智能地组合新生物系统还需要对基因组编码的巨大复杂性有深入理解。先前研究表明,在细菌基因组序列上训练的机器学习模型可以建模DNA、RNA和蛋白质的功能,以及它们相互作用形成复杂分子机器的过程。

然而,将这一序列建模范式扩展到真核基因组需要在数据整理、模型架构、训练和推理基础设施以及推理时计算方面取得进展,以应对:

因此,开发能够跨越所有生命领域进行预测和设计的模型,需要训练数据涵盖完整的生物多样性谱系。

二、技术架构:StripedHyena 2与百万级上下文窗口

Evo 2采用StripedHyena 2架构,这是首个基于卷积的多混合架构。多混合架构是一类新的模型架构,旨在利用多种不同类型算子之间的协同作用,以条纹模式排列。

架构特点:

与高度优化的Transformer基线和基于递归或长卷积的上一代混合模型(如StripedHyena 1)相比,StripedHyena 2提供了显著更高的吞吐量。该架构在DNA上的损失扩展也优于Transformer和StripedHyena 1。

两阶段训练策略

Evo 2的训练分为两个阶段:

这种两阶段策略符合自然语言大型语言模型的最佳实践,即在较短上下文长度上进行初始预训练可以提高效率和整体模型质量。

上下文扩展能力

为了有效扩展到100万碱基对的上下文长度,研究团队探索了不同的上下文扩展方法,发现使用旋转嵌入的方法可以有效扩展上下文长度。通过多阶段扩展阶段,模型在100万token上下文上实现了有效的召回能力,能够从100万碱基对长的"干草堆"中检索100碱基对的"针"

三、训练数据与开放科学承诺

Evo 2在名为OpenGenome2的新数据集上训练,该数据集包含:

安全考虑:出于安全考虑,训练数据排除了感染真核宿主的病毒基因组。验证表明,这些数据排除导致模型对真核病毒基因组序列的高困惑度,表明该领域的语言建模性能较弱,达到了预期的安全效果。

开源承诺:为促进开放科学和社区发展,研究团队以开源许可免费发布了Evo 2的模型参数、训练代码、推理代码和训练数据。这使Evo 2成为迄今为止最大规模的完全开放AI模型之一,不仅在生物学领域,与基于Transformer架构的自然语言模型相比也是如此。

四、零样本功能预测:跨越所有生命领域

4.1 跨域突变效应预测

Evo 2通过学习跨 vast 进化训练数据集的序列似然,能够在没有任何任务特定微调或监督的情况下学习突变效应如何与生物功能相关。

主要发现:

4.2 深度突变扫描评估

通过将Evo 2的零样本似然与深度突变扫描(DMS)的实验测量进行比较:

4.3 外显子-内含子边界预测

利用Evo 2嵌入开发单核苷酸分辨率的外显子标签分类器,在八个不同物种上评估性能:

4.4 基因必需性预测

使用零样本似然评分提前终止密码子插入对细菌和噬菌体基因组的影响:

五、临床变异效应预测:非编码变异的突破

Evo 2在人类临床变异效应预测方面取得了重要进展。

ClinVar变异致病性预测

编码区SNV:

编码区非SNV变异(插入和缺失):

非编码变异:

剪接变异效应预测

在SpliceVarDB的剪接变异效应预测中:

这些结果突出了Evo 2在预测人类编码SNV的致病性效应方面与AlphaMissense和GPN-MSA等专业模型的竞争力,同时为非SNV、非编码和剪接相关变异的零样本评分建立了新的最先进水平

BRCA1/BRCA2变异预测

在BRCA1基因的变异功能后果数据集上:

在BRCA2变异数据集上也观察到一致的结果。

监督分类器性能:通过利用Evo 2嵌入在监督分类器中,研究团队在BRCA1编码SNV测试集上实现了AUROC = 0.94、AUPRC = 0.84的性能,超越了所有基准。

六、机制可解释性:从分子到基因组尺度的特征

为探究Evo 2捕获的内容,研究团队使用稀疏自编码器(SAEs)对其表征进行训练,将模型分解为稀疏、高维表征,其中单个潜在维度通常表现出人类可解释的模式。

6.1 移动遗传元件特征

研究发现Evo 2开发了捕获移动遗传元件进化特征的内部表征:

6.2 多模态结构特征

研究还识别了与以下对应的特征:

这些关联突出了基因组语言建模的多模态性质,捕获了超越DNA水平的高阶结构信息。

6.3 人类基因组特征

在人类基因组中,研究识别了:

这些特征还可用于注释灭绝物种的基因组,研究团队在猛犸象基因组部分的成功映射证明了这一点。

七、基因组尺度生成:从线粒体到染色体

7.1 基因完成与提示响应

评估Evo 2对基因组提示的响应能力,研究团队选择了六个系统发育多样的物种,涵盖古菌、原核生物和四个真核谱系(真菌、原生生物、植物和动物)。

实验设计:

结果:Evo 2在基因序列完成方面实现了高准确性,表明模型响应提示以实现上下文序列设计。氨基酸回收率随规模提高,Evo 2 400亿参数模型表现最佳。

7.2 线粒体基因组生成

使用Evo 2 400亿参数模型,提示人类线粒体DNA的部分,生成250条独特的16 kb线粒体序列:

7.3 最小细菌基因组生成

利用Evo 2的百万碱基对上下文窗口,研究团队生成了与小型原核基因组相同规模的DNA序列:

7.4 真核染色体生成

为评估Evo 2的真核序列生成能力:

局限性:tRNA和基因特征的密度低于天然酵母基因组中的密度。研究团队指出,这些基因组序列是通过简单的、无约束的自回归生成产生的,生成基因组的自然性改进很可能可以通过优化的推理策略或模型改进来解决。

八、推理时搜索:生成式表观基因组学

研究团队开发了一种使用Evo 2生成长基因组序列的方法,可以指定染色质可及区域的位置和长度。这是生物学语言建模中推理时扩展结果的首个例子。

8.1 技术方法

为实现染色质可及性的可控设计:

8.2 推理时扩展效应

增加束搜索宽度(即通过采样更多128 bp块并仅生成每个束搜索步骤中得分最高的前两个块)导致设计成功的大幅改善:

研究团队观察到可预测的对数线性关系:增加束搜索宽度从而增加推理时计算,导致更好质量的设计。

8.3 多样化模式设计

为证明该方法的通用性,研究团队设计了不同长度和位置的峰,以摩尔斯电码编写简单消息:

重要意义:这是生物学语言建模中推理时扩展结果的首个例子,展示了增加推理时计算可预测地改善复杂设计任务性能的关系。

九、生物安全考量与风险评估

与能够智能组合新系统的生物基础模型相关的潜在利益也伴随着安全、安保和伦理考量。研究团队根据Responsible AI x Biodesign承诺,在开源发布前预先评估和缓解了潜在担忧。

9.1 病毒生成风险缓解

通过从训练数据中排除感染真核生物的病毒的基因组序列:

9.2 祖先偏倚评估

纳入真核数据还引入了使用Evo 2帮助解释人类遗传变异的可能性:

十、结论与展望

Evo 2代表了生物基础模型的重要进展,在分子、系统和基因组尺度上实现了跨所有生命领域的预测和生成任务。

主要成就

未来改进方向

未来研究方向

  • 将Evo 2与额外特征和群体规模人类基因组变异相结合,以改进致病性预测或结构变异分析
  • 利用机制可解释性,学习特征可以增强更复杂生物学概念的检测,并通过激活引导和特征钳位指导模型生成
  • 监督微调或强化学习与实验反馈可能提高Evo 2生成功能的质量
  • 通过推理时计算设计复杂生物系统可以推广到包括选择性剪接、细胞类型特异性或基因电路功能等其他特性

Evo系列模型为统一生物学多样长度尺度的生物建模和设计奠定了基础,使用共同表征。未来整合表观基因组和转录组信息等额外模态的工作可以产生能够有效模拟健康和疾病中复杂细胞表型的虚拟细胞模型

参考资料:
[1] Brixi G, Durrant MG, Ku J, et al. Genome modeling and design across all domains of life with Evo 2. bioRxiv. 2025. doi: 10.1101/2025.02.18.638918

← 返回博客列表