原文:Nguyen et al., Science 2024
DOI:10.1126/science.ado9336
机构:Arc Institute & 斯坦福大学

摘要

Evo是Arc Institute与斯坦福大学联合团队于2024年发表的基因组基础模型,具有70亿参数、13.1万token上下文长度,采用StripedHyena架构实现单核苷酸分辨率的长序列建模。Evo在270万原核生物和噬菌体基因组上训练,展现了跨DNA、RNA和蛋白质模态的零样本功能预测能力,并成功实现了CRISPR-Cas系统和转座子系统的多模态生成设计,代表了基因组基础模型的重要进展。

一、背景:跨越模态与尺度的生物学建模挑战

生命的根本指令编码在所有生物体的DNA序列中。理解这些指令可以深化对生物过程的认识,并为重新编程生物学以创造有用技术开辟新途径。然而,即使是最简单的微生物基因组也极其复杂,数百万碱基对编码着DNA、RNA和蛋白质之间的相互作用——即分子生物学中心法则的三种模态,它们是细胞功能的关键执行者。

这种复杂性存在于多个尺度,从单个分子到整个基因组,代表着在进化时间中被功能选择的广阔遗传信息景观。

现有方法的局限:

一个能够统一分子、系统和基因组尺度信息的DNA模型,可以从大基因组区域学习以捕捉系统范围的相互作用,从而实现更复杂生物功能的设计。

技术障碍:将大型语言模型技术应用于DNA序列建模面临特定挑战。主流的密集Transformer架构在输入序列长度相对于模型宽度增长时产生高昂计算成本(二次方缩放),且在单核苷酸或字节级分辨率上通常表现不及粗分辨率模型。因此,基于Transformer的DNA模型受限于短上下文长度,并采用将核苷酸聚合成token的方案,从而牺牲了单核苷酸分辨率。

二、技术架构:StripedHyena与长序列建模

Evo采用StripedHyena架构,这是一个混合了注意力机制和数据控制卷积算子的模型设计。具体而言:

这种混合设计旨在结合两种机制的优势:

Hyena层属于深度信号处理原语类别,通过结构化算子实现高效、输入依赖的计算,这些算子兼容快速乘法算法,可在亚二次方时间内评估。这种设计使Evo能够在单核苷酸分辨率上处理长达131,072个token的序列,同时保持计算效率。

扩展定律分析

研究团队进行了DNA预训练的扩展定律分析,系统比较了Transformer++、Mamba、Hyena和StripedHyena四种架构:

三、训练数据与扩展定律

Evo在名为OpenGenome的数据集上训练,包含:

安全考虑:出于生物安全考虑,训练数据排除了感染真核宿主的病毒。

预训练阶段:

扩展定律发现:DNA序列建模遵循与自然语言和视觉类似的规律:随着计算资源、模型规模和数据量的增加,模型性能呈现可预测的提升。对于Evo 7B模型,估计的计算最优token数为2500亿,而实际在3000亿token上训练,处于计算最优模型规模的17%偏移位置。

四、零样本功能预测:跨模态能力评估

4.1 蛋白质功能预测

Evo在零样本设置下评估了突变对蛋白质功能的影响预测能力。使用深度突变扫描(DMS)数据集,通过语言模型似然或伪似然预测氨基酸序列的实验适应度分数。

主要发现:

局限性:人类蛋白质DMS数据集上,Evo无法预测突变对适应度的影响,这可能是因为预训练数据集仅由原核序列组成。但研究观察到野生型序列的语言模型困惑度与适应度预测性能之间存在强关联,暗示通过在哺乳动物编码序列上微调或未来预训练,可能将Evo的性能扩展到细菌蛋白质之外。

4.2 非编码RNA功能预测

Evo在非编码RNA(ncRNA)如tRNA、核糖体RNA和核酶的突变效应预测任务上进行了评估。

主要发现:

4.3 调控DNA活性预测

启动子活性预测:

蛋白质表达预测:

五、多模态生成设计:从CRISPR到转座子

5.1 CRISPR-Cas系统的代码设计

Evo被用于生成包含蛋白质和ncRNA组分相互作用的CRISPR-Cas分子复合物。

微调策略:

生成结果:一些预测的ORF与最接近的自然Cas9的蛋白质序列相似度低于40%

功能验证:在约200万Evo生成序列中,筛选出11个具有稳健预测pLDDT分数的Cas9系统进行功能验证。其中一种名为EvoCas9-1的生成物表现出稳健活性:

5.2 IS200/IS605转座子系统

Evo还被用于生成IS200/IS605家族的转座子系统,这些系统通过TnpA转座酶与末端发夹的相互作用催化"剥离-粘贴"转座。

微调与生成:

实验验证:在48个实验测试的Evo生成设计中,11个IS200样元件和3个IS605样元件表现出体外切除和插入的证据,成功率接近50%。这些活性元件使用多样化的发夹,编码的TnpA蛋白质与微调数据库的序列同一性低至67%。

重要意义:这是首次使用语言模型代码设计蛋白质-DNA系统的例子。

六、基因组尺度学习:基因必需性与序列生成

6.1 基因必需性预测

通过在131,072 token上下文上进行第二阶段的预训练,Evo能够分析整个基因组。研究评估了模型对基因必需性的敏感性:

主要发现:在58个全基因组必需性研究中,Evo在66k上下文中的对数似然变化与基因必需性在49个基因组中显著相关。提供额外基因组上下文(从仅基因序列到8k上下文)显著改善了性能,但从8k到66k上下文的平均性能相当。

6.2 基因组尺度序列生成

Evo被用于生成16条约100万碱基的序列,代表超过模型上下文长度7倍的规模。

生成质量:

局限性:

这些结果与生成模型在其他领域(如自然语言或图像生成)的发现一致:直接从预训练模型采样通常产生语法正确但局部偏向更简单构造、全局不连贯的序列。

七、讨论:能力边界与未来方向

Evo代表了基因组基础模型的重要进展,在分子、系统和基因组尺度上实现了预测和生成任务。然而,作为第一代DNA基础模型,它面临若干技术局限和挑战。

7.1 技术局限

预训练数据方面:

7.2 生物安全考量

能够进行基因组尺度设计的模型具有推进治疗发现、可持续性和基础生物学理解的潜力,但同时也引发生物安全和伦理考量。研究团队采取了以下措施:

7.3 未来方向

未来研究方向

  • 增加模型规模
  • 扩展上下文长度
  • 引入更多样化的预训练数据(包括真核基因组)
  • 结合大规模基因组修饰的进展
  • 将生物工程和设计的范围扩展到整个基因组尺度

真核基因组的整合将需要考虑这些基因组的更高复杂性,并在工程、计算和安全相关的模型对齐方面进行大量资源投入。

参考资料:
[1] Nguyen E, Poli M, Durrant MG, et al. Sequence modeling and design from molecular to genome scale with Evo. Science. 2024;386(6723):eado9336.

← 返回博客列表