蛋白質語言模型綜述：技術演進、核心挑戰與未來方向

摘要

蛋白質語言模型（Protein Language Models, PLMs）作為連接自然語言處理與計算生物學的交叉領域，近年來取得了顯著進展。本文基於華中科技大學團隊發表於arXiv的綜述論文（arXiv:2502.06881v1），系統梳理PLMs的技術架構演進、位置編碼策略、擴展定律、數據集構建及下游應用，並客觀分析當前面臨的核心挑戰與未來發展趨勢。

一、背景：當蛋白質遇見語言模型

蛋白質序列與自然語言在概念層面存在顯著相似性：兩者均由離散的"字母"（氨基酸或詞彙）線性排列構成，且都遵循特定的語法規則。這一認知為將自然語言處理技術遷移至蛋白質研究奠定了基礎。

隨著測序技術的快速發展，無標籤蛋白質序列數據呈指數級增長，而Transformer架構的引入與大規模自監督學習的結合，催生了PLMs的爆發式發展。這些模型通過學習蛋白質的分佈式表徵，在結構預測、功能註釋、蛋白質設計等任務中展現出接近甚至超越傳統實驗方法的能力。

二、模型架構的演進軌跡

2.1 早期探索（Transformer之前）

在Transformer出現之前，研究者已嘗試多種神經網絡架構：

ProtVec（2015）：首次將詞嵌入技術應用於蛋白質序列，將氨基酸三聯體視為"詞"進行嵌入學習
MIF-ST：結合卷積神經網絡與圖神經網絡處理序列-結構聯合表徵
UniRep、SeqVec：利用循環神經網絡捕捉長程依賴關係

這些早期探索為後續Transformer架構的應用積累了寶貴經驗，但受限於並行化能力不足與長序列建模困難等問題，未能實現突破性進展。

2.2 Transformer時代的主流架構

當前主流PLMs均基於Transformer架構，可依據其設計範式分為三類：

編碼器-only模型

採用BERT式雙向編碼，適用於表徵學習與下游任務特徵提取。代表模型：

ESM-2：15B參數
ESM-3：98B參數，當前編碼器模型的規模上限

解碼器-only模型

採用GPT式自迴歸生成，專注於蛋白質序列生成任務。代表模型：

ProGen2：6.4B參數，展示出生成具有催化活性蛋白質的能力
RITA：基於旋轉位置編碼

編碼器-解碼器模型

支持序列到序列的轉換任務。代表模型：

ProstT5：實現序列與3Di結構token的雙向翻譯
xTrimoPGLM：100B參數，探索理解與生成的統一建模

2.3 結構融合趨勢

純序列模型雖能捕捉進化與結構資訊，但缺乏顯式的結構監督。近期模型嘗試多種結構融合策略：

SaProt：將結構數據轉換為3Di token
ESM-3：將序列、結構、功能統一至單一潛空間
LM-GVP：連接序列與圖特徵
PeTriBERT：使用傅里葉嵌入編碼3D結構
MSA-Transformer：將掩碼語言建模擴展至多序列比對

這些嘗試反映了PLMs從單一模態向多模態融合的發展趨勢。

三、位置編碼的技術選擇

Transformer本身不建模位置資訊，需通過位置編碼引入。在PLMs的發展歷程中，位置編碼策略經歷了從絕對到相對的演進：

編碼類型	特點	代表模型
絕對位置編碼	實現簡單、計算高效，但缺乏長度外推能力	ESM-1b、ProtTrans
旋轉位置編碼（RoPE）	兼具長度靈活性與遠程衰減特性，性能優於ALiBI	ESM-2、ProGen2、RITA
相對位置編碼	對序列長度不敏感，更適合捕捉結構資訊	T5、DeBERTa

四、擴展定律的適用邊界

OpenAI提出的擴展定律描述了模型性能與參數量、數據量、計算量之間的冪律關係。在PLMs領域，這一定律表現出獨特特徵：

ESM系列清晰展示了模型規模擴大帶來的性能提升
PLMs的建模損失通常遵循嚴格的冪律關係
與NLP模型相比，PLMs更容易出現欠擬合，即使訓練遠超NLP最優點的數據量仍顯不足

這一發現暗示進一步擴大模型規模與訓練數據仍可能顯著提升PLMs性能。然而，規模化的代價不容忽視：超大規模模型難以泛化至下游任務，需要高效的架構設計與微調策略。

五、數據體系的構建邏輯

5.1 序列數據

UniProt系列：包括UniRef 50/90/100、UniParc、UniProtKB，最廣泛使用的蛋白質序列數據庫
BFD：包含數億序列的大規模整合數據庫
MGnify：24億條宏基因組預測序列，增強訓練數據多樣性
OAS：超過5億條抗體序列，支持抗體特異性模型訓練

5.2 結構數據

PDB：實驗確定的生物大分子結構金標準，數據量有限但質量最高
AlphaFoldDB：通過AlphaFold預測補充實驗結構稀缺性
ESMAtlas：6.17億個宏基因組蛋白結構預測，其中數百萬為全新結構

5.3 評估基準

結構預測：CASP、CAMEO、SCOP、CATH
功能預測：CAFA、EC、GO、FLIP
綜合能力：TAPE、PEER、ProteinGym

六、下游應用的能力邊界

6.1 結構預測

MSA-free模型成為近期主流方向。ESMFold、HelixFold-Single等單序列模型通過大規模訓練隱式學習共進化的資訊，在孤兒蛋白上表現優於單序列版AlphaFold2，且計算速度顯著提升。

6.2 功能預測

PLMs提供的豐富嵌入資訊為功能預測提供了新途徑。DeepFRI、GPSFun等模型嘗試融合結構資訊，PhiGnet引入殘基功能貢獻量化方法，增強了預測可解釋性。

6.3 蛋白質設計

ProGen：生成具有天然酶活性的全新序列
IgLM：優化抗體序列設計
ESM-3、ProteinMPNN：支持基於結構的序列優化
Sapiens、AbLang：在抗體人源化任務中達到專家級性能

6.4 突變效應預測

零樣本預測成為PLMs的重要應用場景。ESM-1v、MSA-Transformer等模型無需實驗數據即可預測突變對蛋白質適應度的影響，AlphaMissense、ProSST等多模態模型達到當前最優性能。

七、挑戰與未來方向的權衡

7.1 核心挑戰

設計標準不明確：模型架構、數據集規模與分佈的最優配置尚缺乏系統指導
長序列建模困難：蛋白質序列長度跨度大（30-33,000氨基酸），對硬體條件要求苛刻
泛化能力待提升：超大規模模型在下游任務上的泛化能力仍需改進

7.2 未來方向

MSA-free模型：代表了效率與普適性的追求。儘管MSA能顯著提升性能，但其計算成本高、結果不穩定、對孤兒蛋白失效等問題推動了MSA-free模型的發展。

多模態融合：代表了表徵能力的極致追求。序列-結構-功能聯合建模已成為主流趨勢，AlphaFold等結構預測模型的成功解決了訓練數據稀缺問題，這一方向有望為更通用的蛋白質語言建模提供新理解。

八、結論

蛋白質語言模型正處於快速發展期，從早期RNN探索到Transformer主導，從純序列建模到多模態融合，技術路線日趨成熟。擴展定律在蛋白質領域表現出獨特特徵，暗示規模化仍有空間，但數據質量與模型效率同樣重要。

MSA-free模型與多模態融合代表了當前兩大主流趨勢，前者追求效率與普適性，後者追求表徵能力與預測精度。未來PLMs的發展需要在規模、效率、泛化能力之間尋求平衡，同時關注長序列建模等核心技術挑戰。

參考資料：Wang L, Li X, Zhang H, et al. A Comprehensive Review of Protein Language Models. arXiv preprint arXiv:2502.06881, 2025.

← 返回博客列表