蛋白质语言模型综述：技术演进、核心挑战与未来方向

摘要

蛋白质语言模型（Protein Language Models, PLMs）作为连接自然语言处理与计算生物学的交叉领域，近年来取得了显著进展。本文基于华中科技大学团队发表于arXiv的综述论文（arXiv:2502.06881v1），系统梳理PLMs的技术架构演进、位置编码策略、扩展定律、数据集构建及下游应用，并客观分析当前面临的核心挑战与未来发展趋势。

一、背景：当蛋白质遇见语言模型

蛋白质序列与自然语言在概念层面存在显著相似性：两者均由离散的"字母"（氨基酸或词汇）线性排列构成，且都遵循特定的语法规则。这一认知为将自然语言处理技术迁移至蛋白质研究奠定了基础。

随着测序技术的快速发展，无标签蛋白质序列数据呈指数级增长，而Transformer架构的引入与大规模自监督学习的结合，催生了PLMs的爆发式发展。这些模型通过学习蛋白质的分布式表征，在结构预测、功能注释、蛋白质设计等任务中展现出接近甚至超越传统实验方法的能力。

二、模型架构的演进轨迹

2.1 早期探索（Transformer之前）

在Transformer出现之前，研究者已尝试多种神经网络架构：

ProtVec（2015）：首次将词嵌入技术应用于蛋白质序列，将氨基酸三联体视为"词"进行嵌入学习
MIF-ST：结合卷积神经网络与图神经网络处理序列-结构联合表征
UniRep、SeqVec：利用循环神经网络捕捉长程依赖关系

这些早期探索为后续Transformer架构的应用积累了宝贵经验，但受限于并行化能力不足与长序列建模困难等问题，未能实现突破性进展。

2.2 Transformer时代的主流架构

当前主流PLMs均基于Transformer架构，可依据其设计范式分为三类：

编码器-only模型

采用BERT式双向编码，适用于表征学习与下游任务特征提取。代表模型：

ESM-2：15B参数
ESM-3：98B参数，当前编码器模型的规模上限

解码器-only模型

采用GPT式自回归生成，专注于蛋白质序列生成任务。代表模型：

ProGen2：6.4B参数，展示出生成具有催化活性蛋白质的能力
RITA：基于旋转位置编码

编码器-解码器模型

支持序列到序列的转换任务。代表模型：

ProstT5：实现序列与3Di结构token的双向翻译
xTrimoPGLM：100B参数，探索理解与生成的统一建模

2.3 结构融合趋势

纯序列模型虽能捕捉进化与结构信息，但缺乏显式的结构监督。近期模型尝试多种结构融合策略：

SaProt：将结构数据转换为3Di token
ESM-3：将序列、结构、功能统一至单一潜空间
LM-GVP：连接序列与图特征
PeTriBERT：使用傅里叶嵌入编码3D结构
MSA-Transformer：将掩码语言建模扩展至多序列比对

这些尝试反映了PLMs从单一模态向多模态融合的发展趋势。

三、位置编码的技术选择

Transformer本身不建模位置信息，需通过位置编码引入。在PLMs的发展历程中，位置编码策略经历了从绝对到相对的演进：

编码类型	特点	代表模型
绝对位置编码	实现简单、计算高效，但缺乏长度外推能力	ESM-1b、ProtTrans
旋转位置编码（RoPE）	兼具长度灵活性与远程衰减特性，性能优于ALiBI	ESM-2、ProGen2、RITA
相对位置编码	对序列长度不敏感，更适合捕捉结构信息	T5、DeBERTa

四、扩展定律的适用边界

OpenAI提出的扩展定律描述了模型性能与参数量、数据量、计算量之间的幂律关系。在PLMs领域，这一定律表现出独特特征：

ESM系列清晰展示了模型规模扩大带来的性能提升
PLMs的建模损失通常遵循严格的幂律关系
与NLP模型相比，PLMs更容易出现欠拟合，即使训练远超NLP最优点的数据量仍显不足

这一发现暗示进一步扩大模型规模与训练数据仍可能显著提升PLMs性能。然而，规模化的代价不容忽视：超大规模模型难以泛化至下游任务，需要高效的架构设计与微调策略。

五、数据体系的构建逻辑

5.1 序列数据

UniProt系列：包括UniRef 50/90/100、UniParc、UniProtKB，最广泛使用的蛋白质序列数据库
BFD：包含数亿序列的大规模整合数据库
MGnify：24亿条宏基因组预测序列，增强训练数据多样性
OAS：超过5亿条抗体序列，支持抗体特异性模型训练

5.2 结构数据

PDB：实验确定的生物大分子结构金标准，数据量有限但质量最高
AlphaFoldDB：通过AlphaFold预测补充实验结构稀缺性
ESMAtlas：6.17亿个宏基因组蛋白结构预测，其中数百万为全新结构

5.3 评估基准

结构预测：CASP、CAMEO、SCOP、CATH
功能预测：CAFA、EC、GO、FLIP
综合能力：TAPE、PEER、ProteinGym

六、下游应用的能力边界

6.1 结构预测

MSA-free模型成为近期主流方向。ESMFold、HelixFold-Single等单序列模型通过大规模训练隐式学习共进化的信息，在孤儿蛋白上表现优于单序列版AlphaFold2，且计算速度显著提升。

6.2 功能预测

PLMs提供的丰富嵌入信息为功能预测提供了新途径。DeepFRI、GPSFun等模型尝试融合结构信息，PhiGnet引入残基功能贡献量化方法，增强了预测可解释性。

6.3 蛋白质设计

ProGen：生成具有天然酶活性的全新序列
IgLM：优化抗体序列设计
ESM-3、ProteinMPNN：支持基于结构的序列优化
Sapiens、AbLang：在抗体人源化任务中达到专家级性能

6.4 突变效应预测

零样本预测成为PLMs的重要应用场景。ESM-1v、MSA-Transformer等模型无需实验数据即可预测突变对蛋白质适应度的影响，AlphaMissense、ProSST等多模态模型达到当前最优性能。

七、挑战与未来方向的权衡

7.1 核心挑战

设计标准不明确：模型架构、数据集规模与分布的最优配置尚缺乏系统指导
长序列建模困难：蛋白质序列长度跨度大（30-33,000氨基酸），对硬件条件要求苛刻
泛化能力待提升：超大规模模型在下游任务上的泛化能力仍需改进

7.2 未来方向

MSA-free模型：代表了效率与普适性的追求。尽管MSA能显著提升性能，但其计算成本高、结果不稳定、对孤儿蛋白失效等问题推动了MSA-free模型的发展。

多模态融合：代表了表征能力的极致追求。序列-结构-功能联合建模已成为主流趋势，AlphaFold等结构预测模型的成功解决了训练数据稀缺问题，这一方向有望为更通用的蛋白质语言建模提供新理解。

八、结论

蛋白质语言模型正处于快速发展期，从早期RNN探索到Transformer主导，从纯序列建模到多模态融合，技术路线日趋成熟。扩展定律在蛋白质领域表现出独特特征，暗示规模化仍有空间，但数据质量与模型效率同样重要。

MSA-free模型与多模态融合代表了当前两大主流趋势，前者追求效率与普适性，后者追求表征能力与预测精度。未来PLMs的发展需要在规模、效率、泛化能力之间寻求平衡，同时关注长序列建模等核心技术挑战。

参考资料：Wang L, Li X, Zhang H, et al. A Comprehensive Review of Protein Language Models. arXiv preprint arXiv:2502.06881, 2025.

← 返回博客列表