摘要
蛋白质语言模型(Protein Language Models, PLMs)作为连接自然语言处理与计算生物学的交叉领域,近年来取得了显著进展。本文基于华中科技大学团队发表于arXiv的综述论文(arXiv:2502.06881v1),系统梳理PLMs的技术架构演进、位置编码策略、扩展定律、数据集构建及下游应用,并客观分析当前面临的核心挑战与未来发展趋势。
一、背景:当蛋白质遇见语言模型
蛋白质序列与自然语言在概念层面存在显著相似性:两者均由离散的"字母"(氨基酸或词汇)线性排列构成,且都遵循特定的语法规则。这一认知为将自然语言处理技术迁移至蛋白质研究奠定了基础。
随着测序技术的快速发展,无标签蛋白质序列数据呈指数级增长,而Transformer架构的引入与大规模自监督学习的结合,催生了PLMs的爆发式发展。这些模型通过学习蛋白质的分布式表征,在结构预测、功能注释、蛋白质设计等任务中展现出接近甚至超越传统实验方法的能力。
二、模型架构的演进轨迹
2.1 早期探索(Transformer之前)
在Transformer出现之前,研究者已尝试多种神经网络架构:
- ProtVec(2015):首次将词嵌入技术应用于蛋白质序列,将氨基酸三联体视为"词"进行嵌入学习
- MIF-ST:结合卷积神经网络与图神经网络处理序列-结构联合表征
- UniRep、SeqVec:利用循环神经网络捕捉长程依赖关系
这些早期探索为后续Transformer架构的应用积累了宝贵经验,但受限于并行化能力不足与长序列建模困难等问题,未能实现突破性进展。
2.2 Transformer时代的主流架构
当前主流PLMs均基于Transformer架构,可依据其设计范式分为三类:
编码器-only模型
采用BERT式双向编码,适用于表征学习与下游任务特征提取。代表模型:
- ESM-2:15B参数
- ESM-3:98B参数,当前编码器模型的规模上限
解码器-only模型
采用GPT式自回归生成,专注于蛋白质序列生成任务。代表模型:
- ProGen2:6.4B参数,展示出生成具有催化活性蛋白质的能力
- RITA:基于旋转位置编码
编码器-解码器模型
支持序列到序列的转换任务。代表模型:
- ProstT5:实现序列与3Di结构token的双向翻译
- xTrimoPGLM:100B参数,探索理解与生成的统一建模
2.3 结构融合趋势
纯序列模型虽能捕捉进化与结构信息,但缺乏显式的结构监督。近期模型尝试多种结构融合策略:
- SaProt:将结构数据转换为3Di token
- ESM-3:将序列、结构、功能统一至单一潜空间
- LM-GVP:连接序列与图特征
- PeTriBERT:使用傅里叶嵌入编码3D结构
- MSA-Transformer:将掩码语言建模扩展至多序列比对
这些尝试反映了PLMs从单一模态向多模态融合的发展趋势。
三、位置编码的技术选择
Transformer本身不建模位置信息,需通过位置编码引入。在PLMs的发展历程中,位置编码策略经历了从绝对到相对的演进:
| 编码类型 | 特点 | 代表模型 |
|---|---|---|
| 绝对位置编码 | 实现简单、计算高效,但缺乏长度外推能力 | ESM-1b、ProtTrans |
| 旋转位置编码(RoPE) | 兼具长度灵活性与远程衰减特性,性能优于ALiBI | ESM-2、ProGen2、RITA |
| 相对位置编码 | 对序列长度不敏感,更适合捕捉结构信息 | T5、DeBERTa |
四、扩展定律的适用边界
OpenAI提出的扩展定律描述了模型性能与参数量、数据量、计算量之间的幂律关系。在PLMs领域,这一定律表现出独特特征:
- ESM系列清晰展示了模型规模扩大带来的性能提升
- PLMs的建模损失通常遵循严格的幂律关系
- 与NLP模型相比,PLMs更容易出现欠拟合,即使训练远超NLP最优点的数据量仍显不足
这一发现暗示进一步扩大模型规模与训练数据仍可能显著提升PLMs性能。然而,规模化的代价不容忽视:超大规模模型难以泛化至下游任务,需要高效的架构设计与微调策略。
五、数据体系的构建逻辑
5.1 序列数据
- UniProt系列:包括UniRef 50/90/100、UniParc、UniProtKB,最广泛使用的蛋白质序列数据库
- BFD:包含数亿序列的大规模整合数据库
- MGnify:24亿条宏基因组预测序列,增强训练数据多样性
- OAS:超过5亿条抗体序列,支持抗体特异性模型训练
5.2 结构数据
- PDB:实验确定的生物大分子结构金标准,数据量有限但质量最高
- AlphaFoldDB:通过AlphaFold预测补充实验结构稀缺性
- ESMAtlas:6.17亿个宏基因组蛋白结构预测,其中数百万为全新结构
5.3 评估基准
- 结构预测:CASP、CAMEO、SCOP、CATH
- 功能预测:CAFA、EC、GO、FLIP
- 综合能力:TAPE、PEER、ProteinGym
六、下游应用的能力边界
6.1 结构预测
MSA-free模型成为近期主流方向。ESMFold、HelixFold-Single等单序列模型通过大规模训练隐式学习共进化的信息,在孤儿蛋白上表现优于单序列版AlphaFold2,且计算速度显著提升。
6.2 功能预测
PLMs提供的丰富嵌入信息为功能预测提供了新途径。DeepFRI、GPSFun等模型尝试融合结构信息,PhiGnet引入残基功能贡献量化方法,增强了预测可解释性。
6.3 蛋白质设计
- ProGen:生成具有天然酶活性的全新序列
- IgLM:优化抗体序列设计
- ESM-3、ProteinMPNN:支持基于结构的序列优化
- Sapiens、AbLang:在抗体人源化任务中达到专家级性能
6.4 突变效应预测
零样本预测成为PLMs的重要应用场景。ESM-1v、MSA-Transformer等模型无需实验数据即可预测突变对蛋白质适应度的影响,AlphaMissense、ProSST等多模态模型达到当前最优性能。
七、挑战与未来方向的权衡
7.1 核心挑战
- 设计标准不明确:模型架构、数据集规模与分布的最优配置尚缺乏系统指导
- 长序列建模困难:蛋白质序列长度跨度大(30-33,000氨基酸),对硬件条件要求苛刻
- 泛化能力待提升:超大规模模型在下游任务上的泛化能力仍需改进
7.2 未来方向
MSA-free模型:代表了效率与普适性的追求。尽管MSA能显著提升性能,但其计算成本高、结果不稳定、对孤儿蛋白失效等问题推动了MSA-free模型的发展。
多模态融合:代表了表征能力的极致追求。序列-结构-功能联合建模已成为主流趋势,AlphaFold等结构预测模型的成功解决了训练数据稀缺问题,这一方向有望为更通用的蛋白质语言建模提供新理解。
八、结论
蛋白质语言模型正处于快速发展期,从早期RNN探索到Transformer主导,从纯序列建模到多模态融合,技术路线日趋成熟。扩展定律在蛋白质领域表现出独特特征,暗示规模化仍有空间,但数据质量与模型效率同样重要。
MSA-free模型与多模态融合代表了当前两大主流趋势,前者追求效率与普适性,后者追求表征能力与预测精度。未来PLMs的发展需要在规模、效率、泛化能力之间寻求平衡,同时关注长序列建模等核心技术挑战。
参考资料:Wang L, Li X, Zhang H, et al. A Comprehensive Review of Protein Language Models. arXiv preprint arXiv:2502.06881, 2025.