摘要

蛋白质语言模型(Protein Language Models, PLMs)作为连接自然语言处理与计算生物学的交叉领域,近年来取得了显著进展。本文基于华中科技大学团队发表于arXiv的综述论文(arXiv:2502.06881v1),系统梳理PLMs的技术架构演进、位置编码策略、扩展定律、数据集构建及下游应用,并客观分析当前面临的核心挑战与未来发展趋势。

一、背景:当蛋白质遇见语言模型

蛋白质序列与自然语言在概念层面存在显著相似性:两者均由离散的"字母"(氨基酸或词汇)线性排列构成,且都遵循特定的语法规则。这一认知为将自然语言处理技术迁移至蛋白质研究奠定了基础。

随着测序技术的快速发展,无标签蛋白质序列数据呈指数级增长,而Transformer架构的引入与大规模自监督学习的结合,催生了PLMs的爆发式发展。这些模型通过学习蛋白质的分布式表征,在结构预测、功能注释、蛋白质设计等任务中展现出接近甚至超越传统实验方法的能力。

二、模型架构的演进轨迹

2.1 早期探索(Transformer之前)

在Transformer出现之前,研究者已尝试多种神经网络架构:

这些早期探索为后续Transformer架构的应用积累了宝贵经验,但受限于并行化能力不足与长序列建模困难等问题,未能实现突破性进展。

2.2 Transformer时代的主流架构

当前主流PLMs均基于Transformer架构,可依据其设计范式分为三类:

编码器-only模型

采用BERT式双向编码,适用于表征学习与下游任务特征提取。代表模型:

  • ESM-2:15B参数
  • ESM-3:98B参数,当前编码器模型的规模上限

解码器-only模型

采用GPT式自回归生成,专注于蛋白质序列生成任务。代表模型:

  • ProGen2:6.4B参数,展示出生成具有催化活性蛋白质的能力
  • RITA:基于旋转位置编码

编码器-解码器模型

支持序列到序列的转换任务。代表模型:

  • ProstT5:实现序列与3Di结构token的双向翻译
  • xTrimoPGLM:100B参数,探索理解与生成的统一建模

2.3 结构融合趋势

纯序列模型虽能捕捉进化与结构信息,但缺乏显式的结构监督。近期模型尝试多种结构融合策略:

这些尝试反映了PLMs从单一模态向多模态融合的发展趋势。

三、位置编码的技术选择

Transformer本身不建模位置信息,需通过位置编码引入。在PLMs的发展历程中,位置编码策略经历了从绝对到相对的演进:

编码类型 特点 代表模型
绝对位置编码 实现简单、计算高效,但缺乏长度外推能力 ESM-1b、ProtTrans
旋转位置编码(RoPE) 兼具长度灵活性与远程衰减特性,性能优于ALiBI ESM-2、ProGen2、RITA
相对位置编码 对序列长度不敏感,更适合捕捉结构信息 T5、DeBERTa

四、扩展定律的适用边界

OpenAI提出的扩展定律描述了模型性能与参数量、数据量、计算量之间的幂律关系。在PLMs领域,这一定律表现出独特特征:

这一发现暗示进一步扩大模型规模与训练数据仍可能显著提升PLMs性能。然而,规模化的代价不容忽视:超大规模模型难以泛化至下游任务,需要高效的架构设计与微调策略。

五、数据体系的构建逻辑

5.1 序列数据

5.2 结构数据

5.3 评估基准

六、下游应用的能力边界

6.1 结构预测

MSA-free模型成为近期主流方向。ESMFold、HelixFold-Single等单序列模型通过大规模训练隐式学习共进化的信息,在孤儿蛋白上表现优于单序列版AlphaFold2,且计算速度显著提升。

6.2 功能预测

PLMs提供的丰富嵌入信息为功能预测提供了新途径。DeepFRI、GPSFun等模型尝试融合结构信息,PhiGnet引入残基功能贡献量化方法,增强了预测可解释性。

6.3 蛋白质设计

6.4 突变效应预测

零样本预测成为PLMs的重要应用场景。ESM-1v、MSA-Transformer等模型无需实验数据即可预测突变对蛋白质适应度的影响,AlphaMissense、ProSST等多模态模型达到当前最优性能。

七、挑战与未来方向的权衡

7.1 核心挑战

7.2 未来方向

MSA-free模型:代表了效率与普适性的追求。尽管MSA能显著提升性能,但其计算成本高、结果不稳定、对孤儿蛋白失效等问题推动了MSA-free模型的发展。

多模态融合:代表了表征能力的极致追求。序列-结构-功能联合建模已成为主流趋势,AlphaFold等结构预测模型的成功解决了训练数据稀缺问题,这一方向有望为更通用的蛋白质语言建模提供新理解。

八、结论

蛋白质语言模型正处于快速发展期,从早期RNN探索到Transformer主导,从纯序列建模到多模态融合,技术路线日趋成熟。扩展定律在蛋白质领域表现出独特特征,暗示规模化仍有空间,但数据质量与模型效率同样重要。

MSA-free模型与多模态融合代表了当前两大主流趋势,前者追求效率与普适性,后者追求表征能力与预测精度。未来PLMs的发展需要在规模、效率、泛化能力之间寻求平衡,同时关注长序列建模等核心技术挑战。

参考资料:Wang L, Li X, Zhang H, et al. A Comprehensive Review of Protein Language Models. arXiv preprint arXiv:2502.06881, 2025.

← 返回博客列表