原文:Brixi et al., bioRxiv 2025
DOI:10.1101/2025.02.18.638918
机构:Arc Institute、斯坦福大学、NVIDIA
摘要
Evo 2是Arc Institute、斯坦福大学及NVIDIA联合团队于2025年发布的生物基础模型,训练于9.3万亿DNA碱基对、涵盖所有生命领域基因组。Evo 2采用40亿和70亿参数两种规模,实现了前所未有的100万token上下文窗口和单核苷酸分辨率。该模型在零样本设置下准确预测从非编码致病突变到临床意义重大的BRCA1变异的功能影响,并首次展示了通过推理时搜索实现表观基因组结构的可控设计。
一、背景:从原核生物到真核生物的建模跨越
生命的根本指令由DNA序列编码。虽然测序、合成和编辑基因组代码的工具已经改变了生物学研究,但智能地组合新生物系统还需要对基因组编码的巨大复杂性有深入理解。先前研究表明,在细菌基因组序列上训练的机器学习模型可以建模DNA、RNA和蛋白质的功能,以及它们相互作用形成复杂分子机器的过程。
然而,将这一序列建模范式扩展到真核基因组需要在数据整理、模型架构、训练和推理基础设施以及推理时计算方面取得进展,以应对:
- 复杂的基因组架构:真核进化产生了广泛的非编码区域、选择性剪接模式和多层表观基因组控制
- 多细胞性和复杂特征:这些特征支撑着多细胞性、复杂特征和真核生命独有的智能行为的出现
因此,开发能够跨越所有生命领域进行预测和设计的模型,需要训练数据涵盖完整的生物多样性谱系。
二、技术架构:StripedHyena 2与百万级上下文窗口
Evo 2采用StripedHyena 2架构,这是首个基于卷积的多混合架构。多混合架构是一类新的模型架构,旨在利用多种不同类型算子之间的协同作用,以条纹模式排列。
架构特点:
- 结合了三种不同变体的输入依赖卷积算子和注意力机制
- 提高了在短序列和长序列上的训练效率
- 在400亿参数规模下,在16,000上下文长度上实现1.3倍加速
- 在100万上下文长度上实现3倍加速
与高度优化的Transformer基线和基于递归或长卷积的上一代混合模型(如StripedHyena 1)相比,StripedHyena 2提供了显著更高的吞吐量。该架构在DNA上的损失扩展也优于Transformer和StripedHyena 1。
两阶段训练策略
Evo 2的训练分为两个阶段:
- 第一阶段:使用8,192 token的上下文长度进行预训练,数据加权聚焦于基因窗口以学习功能遗传元件
- 第二阶段:通过多阶段中期训练将上下文扩展至100万token,以学习跨长基因组距离的元件之间的关系
这种两阶段策略符合自然语言大型语言模型的最佳实践,即在较短上下文长度上进行初始预训练可以提高效率和整体模型质量。
上下文扩展能力
为了有效扩展到100万碱基对的上下文长度,研究团队探索了不同的上下文扩展方法,发现使用旋转嵌入的方法可以有效扩展上下文长度。通过多阶段扩展阶段,模型在100万token上下文上实现了有效的召回能力,能够从100万碱基对长的"干草堆"中检索100碱基对的"针"。
三、训练数据与开放科学承诺
Evo 2在名为OpenGenome2的新数据集上训练,该数据集包含:
- 来自细菌、古菌、真核生物和噬菌体的超过8.8万亿核苷酸的精选、非冗余核苷酸序列数据
- 70亿参数版本:在2.4万亿token上训练
- 400亿参数版本:在9.3万亿token上训练
安全考虑:出于安全考虑,训练数据排除了感染真核宿主的病毒基因组。验证表明,这些数据排除导致模型对真核病毒基因组序列的高困惑度,表明该领域的语言建模性能较弱,达到了预期的安全效果。
开源承诺:为促进开放科学和社区发展,研究团队以开源许可免费发布了Evo 2的模型参数、训练代码、推理代码和训练数据。这使Evo 2成为迄今为止最大规模的完全开放AI模型之一,不仅在生物学领域,与基于Transformer架构的自然语言模型相比也是如此。
四、零样本功能预测:跨越所有生命领域
4.1 跨域突变效应预测
Evo 2通过学习跨 vast 进化训练数据集的序列似然,能够在没有任何任务特定微调或监督的情况下学习突变效应如何与生物功能相关。
主要发现:
- 在20个原核物种和16个真核物种中,模型似然的变化与已知的生物学约束一致
- 在编码序列内,非同义变异、提前终止密码子和移码突变比同义突变引起更大的似然变化
- 在非编码区域,tRNA和rRNA中的缺失比基因间和其他非编码位点的缺失具有显著更大的影响
- 400亿参数模型对miRNA和snoRNA序列中的缺失表现出比70亿参数模型更高的敏感性
4.2 深度突变扫描评估
通过将Evo 2的零样本似然与深度突变扫描(DMS)的实验测量进行比较:
- Evo 2的序列似然与细菌和人类蛋白质以及非编码RNA分子的多种适应度定义相关
- 在预测细菌和人类蛋白质适应度方面与最先进的自回归蛋白质语言模型具有竞争力
- 在非编码RNA适应度预测方面达到了最先进的性能
4.3 外显子-内含子边界预测
利用Evo 2嵌入开发单核苷酸分辨率的外显子标签分类器,在八个不同物种上评估性能:
- Evo 2基于嵌入的分类器实现了优于Nucleotide Transformer和Evo 1训练模型的性能
- AUROC值在0.82-0.99之间
- 表明Evo 2嵌入可用于帮助功能注释 poorly characterized 基因组的遗传元件
4.4 基因必需性预测
使用零样本似然评分提前终止密码子插入对细菌和噬菌体基因组的影响:
- Evo 2模型在预测基因必需性方面与Evo 1的性能相匹配
- 扩展到真核生物的整体生物体适应度效应,使用长非编码RNA(lncRNA)必需性研究的数据
- Evo 2模型在评估人工干扰的影响方面显著优于Nucleotide Transformer和其他基于序列的指标
五、临床变异效应预测:非编码变异的突破
Evo 2在人类临床变异效应预测方面取得了重要进展。
ClinVar变异致病性预测
编码区SNV:
- 400亿和70亿参数模型分别排名第四和第五
- 仅次于AlphaMissense、ESM-1b和GPN-MSA
编码区非SNV变异(插入和缺失):
- Evo 2模型在零样本分类中优于其他模型
非编码变异:
- Evo 2在SNV和非SNV方面都超越了其他模型
剪接变异效应预测
在SpliceVarDB的剪接变异效应预测中:
- 对于外显子和内含子剪接变异效应预测,Evo 2模型实现了最高的零样本性能
这些结果突出了Evo 2在预测人类编码SNV的致病性效应方面与AlphaMissense和GPN-MSA等专业模型的竞争力,同时为非SNV、非编码和剪接相关变异的零样本评分建立了新的最先进水平。
BRCA1/BRCA2变异预测
在BRCA1基因的变异功能后果数据集上:
- Evo 2对编码SNV的零样本预测表现强劲
- 为BRCA1非编码SNV设定了新的最先进水平
- 当编码和非编码变异一起评估时,优于所有其他模型
在BRCA2变异数据集上也观察到一致的结果。
监督分类器性能:通过利用Evo 2嵌入在监督分类器中,研究团队在BRCA1编码SNV测试集上实现了AUROC = 0.94、AUPRC = 0.84的性能,超越了所有基准。
六、机制可解释性:从分子到基因组尺度的特征
为探究Evo 2捕获的内容,研究团队使用稀疏自编码器(SAEs)对其表征进行训练,将模型分解为稀疏、高维表征,其中单个潜在维度通常表现出人类可解释的模式。
6.1 移动遗传元件特征
研究发现Evo 2开发了捕获移动遗传元件进化特征的内部表征:
- 特定特征与原核生物中的前噬菌体区域密切相关
- 在CRISPR阵列中的间隔序列上激活,表明Evo 2将CRISPR间隔序列与噬菌体序列相关联
- 该特征还在其他未被注释为噬菌体的区域上激活,这些区域包含与前噬菌体相关的基因
6.2 多模态结构特征
研究还识别了与以下对应的特征:
- 开放阅读框(ORF)、基因间区域、tRNA和rRNA
- 蛋白质二级结构如α-螺旋和β-折叠
这些关联突出了基因组语言建模的多模态性质,捕获了超越DNA水平的高阶结构信息。
6.3 人类基因组特征
在人类基因组中,研究识别了:
- 对移码和提前终止突变优先激活的突变敏感特征
- 在人类基因启动子区域的DNA基序上激活的特征,与已知的人类转录因子结合位点密切相关
- 与人类基因组外显子和内含子架构密切相关的特征
这些特征还可用于注释灭绝物种的基因组,研究团队在猛犸象基因组部分的成功映射证明了这一点。
七、基因组尺度生成:从线粒体到染色体
7.1 基因完成与提示响应
评估Evo 2对基因组提示的响应能力,研究团队选择了六个系统发育多样的物种,涵盖古菌、原核生物和四个真核谱系(真菌、原生生物、植物和动物)。
实验设计:
- 选择高度保守的代表性基因
- 为Evo 2提供由1,000碱基对上游序列加上目标基因前500-1000碱基对组成的上下文
结果:Evo 2在基因序列完成方面实现了高准确性,表明模型响应提示以实现上下文序列设计。氨基酸回收率随规模提高,Evo 2 400亿参数模型表现最佳。
7.2 线粒体基因组生成
使用Evo 2 400亿参数模型,提示人类线粒体DNA的部分,生成250条独特的16 kb线粒体序列:
- Evo 2能够生成具有正确数量编码序列(CDS)、tRNA和rRNA基因的线粒体基因组
- BLASTp分析显示Evo 2创建了多样化的线粒体基因,与不同生物体(从鱼类到哺乳动物)具有不同程度的序列同一性
- 生成的序列还保持了适当的同线性,同时与自然序列相比表现出相当大的序列多样化
7.3 最小细菌基因组生成
利用Evo 2的百万碱基对上下文窗口,研究团队生成了与小型原核基因组相同规模的DNA序列:
- 以生殖器支原体(M. genitalium)为模型系统,其基因组长度约580 kb
- 使用参考序列的前10.5 kb片段作为提示生成十条基因组
- 对Prodigal预测的ORF进行HHpred分析发现,近70%的Evo 2 400亿参数基因包含显著的Pfam命中,比Evo 1 131k(18%)显著提高
7.4 真核染色体生成
为评估Evo 2的真核序列生成能力:
- 提示Evo 2使用酿酒酵母(S. cerevisiae)III号染色体(约316 kb)的10.5 kb生成330 kb DNA
- Evo 2成功生成了具有预测tRNA、适当定位的启动子和表现出内含子结构的基因的类真核DNA序列
- 生成的蛋白质显示出与自然酵母基因的序列和结构相似性
局限性:tRNA和基因特征的密度低于天然酵母基因组中的密度。研究团队指出,这些基因组序列是通过简单的、无约束的自回归生成产生的,生成基因组的自然性改进很可能可以通过优化的推理策略或模型改进来解决。
八、推理时搜索:生成式表观基因组学
研究团队开发了一种使用Evo 2生成长基因组序列的方法,可以指定染色质可及区域的位置和长度。这是生物学语言建模中推理时扩展结果的首个例子。
8.1 技术方法
为实现染色质可及性的可控设计:
- 使用Enformer和Borzoi模型集合来指导Evo 2的自回归生成
- 评分函数根据生成的序列的预测染色质可及性与期望模式的匹配程度来接受或拒绝生成的序列
- 通过实施束搜索来提高设计过程的效率
8.2 推理时扩展效应
增加束搜索宽度(即通过采样更多128 bp块并仅生成每个束搜索步骤中得分最高的前两个块)导致设计成功的大幅改善:
- 使用AUROC指标量化连续值Enformer和Borzoi预测分离指定开放或封闭染色质区域的能力
- 采样30个或更多128 bp块并在束搜索的每个步骤中选择前两个块足以实现AUROC约0.9的最终设计
研究团队观察到可预测的对数线性关系:增加束搜索宽度从而增加推理时计算,导致更好质量的设计。
8.3 多样化模式设计
为证明该方法的通用性,研究团队设计了不同长度和位置的峰,以摩尔斯电码编写简单消息:
- 窄峰表示点,宽峰表示划,不可访问区域表示空格
- 设计的消息包括"LO"(互联网上发送的第一条消息)、"ARC"(进行该设计运行的研究所名称)和"EVO2"(模型名称)
- 在这些多样化消息的编码中观察到始终强劲的设计成功
重要意义:这是生物学语言建模中推理时扩展结果的首个例子,展示了增加推理时计算可预测地改善复杂设计任务性能的关系。
九、生物安全考量与风险评估
与能够智能组合新系统的生物基础模型相关的潜在利益也伴随着安全、安保和伦理考量。研究团队根据Responsible AI x Biodesign承诺,在开源发布前预先评估和缓解了潜在担忧。
9.1 病毒生成风险缓解
通过从训练数据中排除感染真核生物的病毒的基因组序列:
- 旨在确保公开共享的模型不传播操纵和设计致病性人类病毒的能力
- 数据排除达到了预期效果,削弱了对人类病毒的语言建模性能和下游突变效应预测
- 红队测试直接引发致病性人类病毒蛋白质显示,在该领域生成实际上是随机的,有效防止了Evo 2的人类病毒生成
9.2 祖先偏倚评估
纳入真核数据还引入了使用Evo 2帮助解释人类遗传变异的可能性:
- 研究团队查询了Evo 2的无种群设计是否缓解了模型预测中的祖先偏倚
- 显示Evo 2在跨人类种群中相当好地泛化
- 这是迄今为止最全面的评估工作之一,同时考虑了预防性和访问性
十、结论与展望
Evo 2代表了生物基础模型的重要进展,在分子、系统和基因组尺度上实现了跨所有生命领域的预测和生成任务。
主要成就
- 通过从9万亿token的基因组序列中学习DNA的统计特性,Evo 2能够预测突变对蛋白质功能、ncRNA功能和生物体适应度的影响
- 作为首个无对齐语言模型,Evo 2稳健地预测了ClinVar中不同突变类型的致病性,包括indel,为非编码和剪接变异实现了最先进的性能
- 能够进行基因组长度序列设计,规模达到整个人类线粒体基因组、最小细菌基因组或酵母染色体
- 通过推理时搜索,Evo 2的生成可以产生复杂的表观基因组模式
未来改进方向
未来研究方向
- 将Evo 2与额外特征和群体规模人类基因组变异相结合,以改进致病性预测或结构变异分析
- 利用机制可解释性,学习特征可以增强更复杂生物学概念的检测,并通过激活引导和特征钳位指导模型生成
- 监督微调或强化学习与实验反馈可能提高Evo 2生成功能的质量
- 通过推理时计算设计复杂生物系统可以推广到包括选择性剪接、细胞类型特异性或基因电路功能等其他特性
Evo系列模型为统一生物学多样长度尺度的生物建模和设计奠定了基础,使用共同表征。未来整合表观基因组和转录组信息等额外模态的工作可以产生能够有效模拟健康和疾病中复杂细胞表型的虚拟细胞模型。
参考资料:
[1] Brixi G, Durrant MG, Ku J, et al. Genome modeling and design across all domains of life with Evo 2. bioRxiv. 2025. doi: 10.1101/2025.02.18.638918