← 返回博客列表

摘要:2022年,Meta AI研究团队发布了ESMFold,这是首个基于大规模蛋白质语言模型的单序列结构预测方法。该方法通过训练参数量高达150亿的ESM-2语言模型,直接从氨基酸序列推断原子级三维结构,无需多序列比对(MSA)即可实现与AlphaFold2相当的预测精度,同时将推理速度提升最高达60倍。

一、背景:从MSA依赖到单序列预测的范式转变

蛋白质结构预测的核心挑战在于如何从一级序列推断三维构象。传统方法依赖于多序列比对(MSA)来提取共进化的信息,即通过分析同源序列中氨基酸的共变来推断空间上接近的残基对。AlphaFold2和RoseTTAFold等先进方法正是基于这一范式,通过深度整合MSA信息实现了接近实验精度的结构预测。

然而,MSA的构建需要搜索庞大的序列数据库,这一过程在使用高灵敏度搜索协议时可能耗时超过10分钟,成为计算瓶颈。

蛋白质语言模型(PLMs)的兴起为突破这一瓶颈提供了新思路。PLMs通过在数百万进化多样的蛋白质序列上进行掩码语言建模训练,学习序列间的统计依赖关系。研究者推测,由于蛋白质的结构和功能通过进化约束编码在序列模式中,语言模型在学习预测缺失氨基酸的过程中,可能隐式地习得结构信息。这一假设若成立,将意味着可以直接从语言模型的内部表征中解码三维结构,从而完全绕过MSA构建步骤。

二、ESM-2:规模驱动的结构信息涌现

ESMFold的核心是ESM-2语言模型系列,其参数量从800万扩展到150亿,跨越四个数量级。所有模型均采用Transformer架构,以掩码语言建模为目标函数训练:随机遮蔽序列中的部分氨基酸,要求模型根据上下文预测被遮蔽位置的氨基酸身份。

尽管训练目标仅涉及序列,研究发现随着模型规模扩大,结构信息以可预测的方式涌现。模型性能通过困惑度(perplexity)衡量,该指标描述模型在每个位置预测时面临的平均选择数。在27万步训练后,800万参数模型的困惑度为10.45,而150亿参数模型降至6.37,表明大规模模型对蛋白质序列的理解显著深化。

更重要的是,这种序列建模能力的提升与结构预测能力的涌现高度相关。

结构信息涌现的两个层面

低分辨率层面:Transformer的注意力模式天然对应于残基接触图。通过线性投影从注意力图中提取接触预测,发现随着模型规模扩大,长程接触预测精度持续提升。对于进化深度较高的蛋白质(即训练集中同源序列较多的蛋白质),改进在较小规模即趋于饱和;而对于进化深度较低的蛋白质,改进持续至最大规模。

高分辨率层面:研究者使用等变Transformer从语言模型内部表征投影原子坐标。150亿参数模型在CAMEO测试集上达到0.71的TM-score,在CASP14测试集上达到0.54,较1.5亿参数模型提升0.064点。值得注意的是,困惑度与TM-score呈现近乎完美的负相关(CASP14: -0.99, CAMEO: -1.00),表明语言建模目标与结构学习存在深层联系。

三、ESMFold架构:端到端的单序列预测

基于ESM-2的语言模型能力,研究者开发了ESMFold结构预测网络。该架构将蛋白质序列输入ESM-2,通过其前馈层处理后,将内部表征传递至折叠头。折叠头包含一系列折叠块,交替更新序列表征和成对表征,随后输入等变Transformer结构模块,经过三轮循环优化后输出原子级坐标和置信度预测。

与AlphaFold2和RoseTTAFold的对比

与AlphaFold2和RoseTTAFold相比,ESMFold的架构显著简化。后两者通过Evoformer等复杂模块深度整合MSA信息,在MSA的行和列上执行注意力操作;而ESMFold完全移除了MSA构建和模板搜索步骤,仅依赖语言模型从单序列提取的表征。

这种简化带来了速度优势:在NVIDIA V100 GPU上,ESMFold对384残基蛋白质的预测耗时14.2秒,较单模型AlphaFold2快6倍;在更短序列上,加速比可达约60倍。若计入MSA搜索时间(高灵敏度协议超过10分钟),总体加速可达一到两个数量级。

精度表现

在精度方面,ESMFold在CAMEO测试集(194个结构)上达到平均TM-score 0.83,与RoseTTAFold(0.82)相当;在CASP14测试集(51个结构)上达到0.68,低于使用完整MSA和模板的AlphaFold2(0.85)。这一差距在CASP14上较为明显,可能反映了该测试集包含更多孤儿蛋白(缺乏同源序列的蛋白质),而这类蛋白正是MSA方法的难点。

有趣的是,当移除AlphaFold2和RoseTTAFold的MSA输入后,它们的性能显著下降并低于ESMFold,表明ESMFold在单序列场景下具有优势。

置信度评分

ESMFold的置信度评分(pLDDT)经过良好校准。在CAMEO上,高置信度预测(pLDDT > 0.7)的LDDT达到0.83,接近AlphaFold2的0.85;当置信度极高(pLDDT > 0.9)时,全原子RMSD95中位数为1.42埃,骨架RMSD95为0.94埃,接近实验精度。这种校准良好的置信度评分为大规模筛选可靠预测提供了依据。

四、ESM宏基因组图谱:6.17亿结构的进化尺度表征

ESMFold的速度优势使其能够完成前所未有的宏基因组结构表征。研究团队对MGnify90数据库中的6.17亿条序列(长度20-1024)进行了结构预测,覆盖该数据库99%的序列。这一计算任务在约2000块GPU组成的异构集群上于两周内完成,展示了方法的可扩展性。

预测结果统计

新颖性发现

这些高置信度预测中蕴含大量新颖性。在随机抽样的100万个高置信度结构中:

特别值得注意的是,10.4%的高置信度结构既缺乏结构相似性(TM-score ≤ 0.5)又缺乏序列同源物(相似度 < 30%),代表蛋白质宇宙中的全新区域。

结构相似性揭示的功能关系

ESMFold还揭示了序列无法检测的远程结构相似性。例如,宏基因组序列MGYP000936678158在UniRef90和参考蛋白质组中均无显著序列匹配,但其预测结构与多种核酸酶实验结构(PDB 5YET、3HR4)具有TM-score约0.67的相似性;另一序列MGYP004000959047同样缺乏序列匹配,但其结构与细菌固醇结合域(PDB 6BYM、5YQP)高度相似(TM-score 0.78-0.80)。这些发现表明,ESMFold能够突破序列相似性的限制,通过结构相似性推断功能关系。

所有预测结构均通过ESM宏基因组图谱(https://esmatlas.com)开放获取,支持批量下载、程序化API访问和在线搜索,为大规模结构生物学研究提供了新资源。

五、讨论:优势、局限与未来展望

ESMFold代表了蛋白质结构预测领域的重要技术进步,其核心贡献在于证明了语言模型可以从单序列提取足够的进化信息以支持原子级结构预测,从而摆脱对传统MSA的依赖。这一范式转变带来了多重优势:

局限性

然而,该方法也存在明显局限。在CASP14等包含大量孤儿蛋白的测试集上,ESMFold的精度仍低于使用完整MSA的AlphaFold2,表明对于缺乏进化信息的蛋白质,MSA方法仍具优势。此外,ESMFold的精度与语言模型困惑度高度相关,这意味着改进语言模型是提升结构预测的关键路径,但语言模型的训练成本极高,150亿参数模型的训练需要大量计算资源。

未来展望

从更广阔的视角看,ESMFold的成功为蛋白质语言模型的扩展定律提供了实证支持:随着参数、数据和计算量的增加,语言模型持续展现新的能力。研究者指出,当前模型远未达到理论上可应用的规模极限,未来进一步扩大规模可能带来低进化深度蛋白质建模能力的提升。

在应用层面,ESMFold的宏基因组图谱展示了快速结构预测在探索蛋白质宇宙未知区域方面的潜力。数百万新颖结构的发现为药物靶点识别、酶工程和新功能蛋白设计提供了丰富素材。随着预测方法的持续改进和计算能力的提升,对所有已知蛋白质进行结构表征的目标正变得切实可行。

参考资料

Lin Z, Akin H, Rao R, et al. Evolutionary-scale prediction of atomic level protein structure with a language model. bioRxiv, 2022. doi: 10.1101/2022.07.20.500902