原文:Nguyen et al., Science 2024
DOI:10.1126/science.ado9336
机构:Arc Institute & 斯坦福大学
摘要
Evo是Arc Institute与斯坦福大学联合团队于2024年发表的基因组基础模型,具有70亿参数、13.1万token上下文长度,采用StripedHyena架构实现单核苷酸分辨率的长序列建模。Evo在270万原核生物和噬菌体基因组上训练,展现了跨DNA、RNA和蛋白质模态的零样本功能预测能力,并成功实现了CRISPR-Cas系统和转座子系统的多模态生成设计,代表了基因组基础模型的重要进展。
一、背景:跨越模态与尺度的生物学建模挑战
生命的根本指令编码在所有生物体的DNA序列中。理解这些指令可以深化对生物过程的认识,并为重新编程生物学以创造有用技术开辟新途径。然而,即使是最简单的微生物基因组也极其复杂,数百万碱基对编码着DNA、RNA和蛋白质之间的相互作用——即分子生物学中心法则的三种模态,它们是细胞功能的关键执行者。
这种复杂性存在于多个尺度,从单个分子到整个基因组,代表着在进化时间中被功能选择的广阔遗传信息景观。
现有方法的局限:
- 现有机器学习方法主要集中在模态特异性模型,分别针对蛋白质、编码序列、RNA或调控DNA进行优化
- 生成式应用局限于单分子、简单复合物或短DNA序列的设计
- 复杂的生物过程(如基因调控、CRISPR免疫或遗传转座)依赖于多种模态分子之间的众多相互作用
一个能够统一分子、系统和基因组尺度信息的DNA模型,可以从大基因组区域学习以捕捉系统范围的相互作用,从而实现更复杂生物功能的设计。
技术障碍:将大型语言模型技术应用于DNA序列建模面临特定挑战。主流的密集Transformer架构在输入序列长度相对于模型宽度增长时产生高昂计算成本(二次方缩放),且在单核苷酸或字节级分辨率上通常表现不及粗分辨率模型。因此,基于Transformer的DNA模型受限于短上下文长度,并采用将核苷酸聚合成token的方案,从而牺牲了单核苷酸分辨率。
二、技术架构:StripedHyena与长序列建模
Evo采用StripedHyena架构,这是一个混合了注意力机制和数据控制卷积算子的模型设计。具体而言:
- Evo包含32个块,其中29层使用Hyena层(数据控制卷积算子)
- 3层(10%)使用配备旋转位置嵌入(RoPE)的多头注意力
这种混合设计旨在结合两种机制的优势:
- Hyena层通过短卷积和长卷积滤波器的组合以输入依赖方式处理序列,特别擅长过滤DNA中可能出现的噪声模式并将单个核苷酸聚合成基序
- 注意力层提供全局上下文聚合能力
Hyena层属于深度信号处理原语类别,通过结构化算子实现高效、输入依赖的计算,这些算子兼容快速乘法算法,可在亚二次方时间内评估。这种设计使Evo能够在单核苷酸分辨率上处理长达131,072个token的序列,同时保持计算效率。
扩展定律分析
研究团队进行了DNA预训练的扩展定律分析,系统比较了Transformer++、Mamba、Hyena和StripedHyena四种架构:
- 在计算最优协议下,Transformer++在所有计算预算下均产生显著更差的困惑度,反映了该架构在字节分辨率上的低效
- 状态空间和深度信号处理架构均表现出优于Transformer++的扩展率,其中Hyena和StripedHyena表现最佳
三、训练数据与扩展定律
Evo在名为OpenGenome的数据集上训练,包含:
- 超过8万个细菌和古菌基因组
- 数百万预测的噬菌体和质粒序列
- 总计3000亿核苷酸token
安全考虑:出于生物安全考虑,训练数据排除了感染真核宿主的病毒。
预训练阶段:
- 第一阶段:使用8,192 token的上下文长度
- 第二阶段:将上下文扩展至131,072 token
扩展定律发现:DNA序列建模遵循与自然语言和视觉类似的规律:随着计算资源、模型规模和数据量的增加,模型性能呈现可预测的提升。对于Evo 7B模型,估计的计算最优token数为2500亿,而实际在3000亿token上训练,处于计算最优模型规模的17%偏移位置。
四、零样本功能预测:跨模态能力评估
4.1 蛋白质功能预测
Evo在零样本设置下评估了突变对蛋白质功能的影响预测能力。使用深度突变扫描(DMS)数据集,通过语言模型似然或伪似然预测氨基酸序列的实验适应度分数。
主要发现:
- 在原核蛋白质DMS数据集上,Evo的表现超过了所有其他测试的核苷酸模型,包括专门在编码序列上训练的GenSLM模型
- 达到了与领先蛋白质特异性语言模型相当的性能
- 这表明尽管Evo在长基因组序列上训练且没有显式的编码序列注释,它仍能获得对蛋白质编码序列的深入理解
局限性:在人类蛋白质DMS数据集上,Evo无法预测突变对适应度的影响,这可能是因为预训练数据集仅由原核序列组成。但研究观察到野生型序列的语言模型困惑度与适应度预测性能之间存在强关联,暗示通过在哺乳动物编码序列上微调或未来预训练,可能将Evo的性能扩展到细菌蛋白质之外。
4.2 非编码RNA功能预测
Evo在非编码RNA(ncRNA)如tRNA、核糖体RNA和核酶的突变效应预测任务上进行了评估。
主要发现:
- Evo再次优于所有其他测试的核苷酸语言模型,包括专门在ncRNA序列上训练的RNA-FM模型
- 在测量5S rRNA突变对大肠杆菌生长率影响的研究中,Evo表现出较强的预测性能(Spearman相关系数r = 0.60)
- 这些结果证明Evo能够学习ncRNA功能的突变效应,超越了蛋白质序列的范畴
4.3 调控DNA活性预测
启动子活性预测:
- Evo的零样本似然与四个独立研究中的启动子活性存在非零相关性(平均Spearman r = 0.43)
- 超过了序列GC含量和GenSLM的零样本似然
- 当结合Evo嵌入与监督CNN架构时,性能接近最先进的启动子活性预测方法Promoter Calculator
蛋白质表达预测:
- 单独RBS序列的零样本似然相关性较弱(r = 0.17)
- 当连接启动子和RBS序列后,相关性显著提高
五、多模态生成设计:从CRISPR到转座子
5.1 CRISPR-Cas系统的代码设计
Evo被用于生成包含蛋白质和ncRNA组分相互作用的CRISPR-Cas分子复合物。
微调策略:
- 在72,831个CRISPR-Cas位点数据集上微调
- 添加Cas9、Cas12和Cas13的特殊提示token
- 模型能够生成包含相应Cas编码序列和CRISPR阵列的连贯序列
生成结果:一些预测的ORF与最接近的自然Cas9的蛋白质序列相似度低于40%。
功能验证:在约200万Evo生成序列中,筛选出11个具有稳健预测pLDDT分数的Cas9系统进行功能验证。其中一种名为EvoCas9-1的生成物表现出稳健活性:
- 重组表达和纯化后与化学合成的Evo生成sgRNA配对
- 在体外切割活性上与SpCas9相当
- EvoCas9-1氨基酸序列与微调数据库中最接近的Cas9有79.9%的同一性
- 与SpCas9有73.1%的同一性
5.2 IS200/IS605转座子系统
Evo还被用于生成IS200/IS605家族的转座子系统,这些系统通过TnpA转座酶与末端发夹的相互作用催化"剥离-粘贴"转座。
微调与生成:
- 在10,720个IS605元件和219,866个IS200元件上微调
- 模型学会了MGE边界的表示
- 能够使用一端的信息指定另一端,反映了对两个末端元件紧密进化联系的理解
实验验证:在48个实验测试的Evo生成设计中,11个IS200样元件和3个IS605样元件表现出体外切除和插入的证据,成功率接近50%。这些活性元件使用多样化的发夹,编码的TnpA蛋白质与微调数据库的序列同一性低至67%。
重要意义:这是首次使用语言模型代码设计蛋白质-DNA系统的例子。
六、基因组尺度学习:基因必需性与序列生成
6.1 基因必需性预测
通过在131,072 token上下文上进行第二阶段的预训练,Evo能够分析整个基因组。研究评估了模型对基因必需性的敏感性:
- 在每个编码序列开头插入提前终止密码子
- 测量这些变化对Evo似然的影响
主要发现:在58个全基因组必需性研究中,Evo在66k上下文中的对数似然变化与基因必需性在49个基因组中显著相关。提供额外基因组上下文(从仅基因序列到8k上下文)显著改善了性能,但从8k到66k上下文的平均性能相当。
6.2 基因组尺度序列生成
Evo被用于生成16条约100万碱基的序列,代表超过模型上下文长度7倍的规模。
生成质量:
- 使用物种级token提示模型生成细菌基因组
- 生成的序列具有与自然基因组几乎相同的编码密度,远高于随机序列
- 可视化显示自然序列和生成序列都呈现相似的编码组织模式,相邻序列通常具有相同的链取向
- 使用ESMFold获得的蛋白质结构预测显示几乎所有序列都具有预测的二级结构和球状折叠
局限性:
- 生成序列不包含许多指示完整基因组的高度保守标记基因
- 在约1600万碱基样本序列中仅生成3个rRNA
- 许多蛋白质结构预测置信度较低,偏向进化上更简单的α-螺旋二级结构
- 与自然蛋白质数据库的匹配有限
这些结果与生成模型在其他领域(如自然语言或图像生成)的发现一致:直接从预训练模型采样通常产生语法正确但局部偏向更简单构造、全局不连贯的序列。
七、讨论:能力边界与未来方向
Evo代表了基因组基础模型的重要进展,在分子、系统和基因组尺度上实现了预测和生成任务。然而,作为第一代DNA基础模型,它面临若干技术局限和挑战。
7.1 技术局限
预训练数据方面:
- Evo在3000亿原核token上训练,仅占公开可用基因组数据的极小部分
- 由于模型仅在原核数据上训练,预测人类蛋白质突变功能效应的能力受限
- 许多CRISPR-Cas生成物存在明显问题序列,如缺失或截断的cas基因
- 在基因组尺度上,Evo难以包含关键标记基因如完整的rRNA集合
7.2 生物安全考量
能够进行基因组尺度设计的模型具有推进治疗发现、可持续性和基础生物学理解的潜力,但同时也引发生物安全和伦理考量。研究团队采取了以下措施:
- 排除真核病毒的安全预防措施
- 开源模型以促进透明度和与更广泛科学社区的对话
7.3 未来方向
未来研究方向
- 增加模型规模
- 扩展上下文长度
- 引入更多样化的预训练数据(包括真核基因组)
- 结合大规模基因组修饰的进展
- 将生物工程和设计的范围扩展到整个基因组尺度
真核基因组的整合将需要考虑这些基因组的更高复杂性,并在工程、计算和安全相关的模型对齐方面进行大量资源投入。
参考资料:
[1] Nguyen E, Poli M, Durrant MG, et al. Sequence modeling and design from molecular to genome scale with Evo. Science. 2024;386(6723):eado9336.