摘要
蛋白質語言模型(Protein Language Models, PLMs)作為連接自然語言處理與計算生物學的交叉領域,近年來取得了顯著進展。本文基於華中科技大學團隊發表於arXiv的綜述論文(arXiv:2502.06881v1),系統梳理PLMs的技術架構演進、位置編碼策略、擴展定律、數據集構建及下游應用,並客觀分析當前面臨的核心挑戰與未來發展趨勢。
一、背景:當蛋白質遇見語言模型
蛋白質序列與自然語言在概念層面存在顯著相似性:兩者均由離散的"字母"(氨基酸或詞彙)線性排列構成,且都遵循特定的語法規則。這一認知為將自然語言處理技術遷移至蛋白質研究奠定了基礎。
隨著測序技術的快速發展,無標籤蛋白質序列數據呈指數級增長,而Transformer架構的引入與大規模自監督學習的結合,催生了PLMs的爆發式發展。這些模型通過學習蛋白質的分佈式表徵,在結構預測、功能註釋、蛋白質設計等任務中展現出接近甚至超越傳統實驗方法的能力。
二、模型架構的演進軌跡
2.1 早期探索(Transformer之前)
在Transformer出現之前,研究者已嘗試多種神經網絡架構:
- ProtVec(2015):首次將詞嵌入技術應用於蛋白質序列,將氨基酸三聯體視為"詞"進行嵌入學習
- MIF-ST:結合卷積神經網絡與圖神經網絡處理序列-結構聯合表徵
- UniRep、SeqVec:利用循環神經網絡捕捉長程依賴關係
這些早期探索為後續Transformer架構的應用積累了寶貴經驗,但受限於並行化能力不足與長序列建模困難等問題,未能實現突破性進展。
2.2 Transformer時代的主流架構
當前主流PLMs均基於Transformer架構,可依據其設計範式分為三類:
編碼器-only模型
採用BERT式雙向編碼,適用於表徵學習與下游任務特徵提取。代表模型:
- ESM-2:15B參數
- ESM-3:98B參數,當前編碼器模型的規模上限
解碼器-only模型
採用GPT式自迴歸生成,專注於蛋白質序列生成任務。代表模型:
- ProGen2:6.4B參數,展示出生成具有催化活性蛋白質的能力
- RITA:基於旋轉位置編碼
編碼器-解碼器模型
支持序列到序列的轉換任務。代表模型:
- ProstT5:實現序列與3Di結構token的雙向翻譯
- xTrimoPGLM:100B參數,探索理解與生成的統一建模
2.3 結構融合趨勢
純序列模型雖能捕捉進化與結構資訊,但缺乏顯式的結構監督。近期模型嘗試多種結構融合策略:
- SaProt:將結構數據轉換為3Di token
- ESM-3:將序列、結構、功能統一至單一潛空間
- LM-GVP:連接序列與圖特徵
- PeTriBERT:使用傅里葉嵌入編碼3D結構
- MSA-Transformer:將掩碼語言建模擴展至多序列比對
這些嘗試反映了PLMs從單一模態向多模態融合的發展趨勢。
三、位置編碼的技術選擇
Transformer本身不建模位置資訊,需通過位置編碼引入。在PLMs的發展歷程中,位置編碼策略經歷了從絕對到相對的演進:
| 編碼類型 | 特點 | 代表模型 |
|---|---|---|
| 絕對位置編碼 | 實現簡單、計算高效,但缺乏長度外推能力 | ESM-1b、ProtTrans |
| 旋轉位置編碼(RoPE) | 兼具長度靈活性與遠程衰減特性,性能優於ALiBI | ESM-2、ProGen2、RITA |
| 相對位置編碼 | 對序列長度不敏感,更適合捕捉結構資訊 | T5、DeBERTa |
四、擴展定律的適用邊界
OpenAI提出的擴展定律描述了模型性能與參數量、數據量、計算量之間的冪律關係。在PLMs領域,這一定律表現出獨特特徵:
- ESM系列清晰展示了模型規模擴大帶來的性能提升
- PLMs的建模損失通常遵循嚴格的冪律關係
- 與NLP模型相比,PLMs更容易出現欠擬合,即使訓練遠超NLP最優點的數據量仍顯不足
這一發現暗示進一步擴大模型規模與訓練數據仍可能顯著提升PLMs性能。然而,規模化的代價不容忽視:超大規模模型難以泛化至下游任務,需要高效的架構設計與微調策略。
五、數據體系的構建邏輯
5.1 序列數據
- UniProt系列:包括UniRef 50/90/100、UniParc、UniProtKB,最廣泛使用的蛋白質序列數據庫
- BFD:包含數億序列的大規模整合數據庫
- MGnify:24億條宏基因組預測序列,增強訓練數據多樣性
- OAS:超過5億條抗體序列,支持抗體特異性模型訓練
5.2 結構數據
- PDB:實驗確定的生物大分子結構金標準,數據量有限但質量最高
- AlphaFoldDB:通過AlphaFold預測補充實驗結構稀缺性
- ESMAtlas:6.17億個宏基因組蛋白結構預測,其中數百萬為全新結構
5.3 評估基準
- 結構預測:CASP、CAMEO、SCOP、CATH
- 功能預測:CAFA、EC、GO、FLIP
- 綜合能力:TAPE、PEER、ProteinGym
六、下游應用的能力邊界
6.1 結構預測
MSA-free模型成為近期主流方向。ESMFold、HelixFold-Single等單序列模型通過大規模訓練隱式學習共進化的資訊,在孤兒蛋白上表現優於單序列版AlphaFold2,且計算速度顯著提升。
6.2 功能預測
PLMs提供的豐富嵌入資訊為功能預測提供了新途徑。DeepFRI、GPSFun等模型嘗試融合結構資訊,PhiGnet引入殘基功能貢獻量化方法,增強了預測可解釋性。
6.3 蛋白質設計
- ProGen:生成具有天然酶活性的全新序列
- IgLM:優化抗體序列設計
- ESM-3、ProteinMPNN:支持基於結構的序列優化
- Sapiens、AbLang:在抗體人源化任務中達到專家級性能
6.4 突變效應預測
零樣本預測成為PLMs的重要應用場景。ESM-1v、MSA-Transformer等模型無需實驗數據即可預測突變對蛋白質適應度的影響,AlphaMissense、ProSST等多模態模型達到當前最優性能。
七、挑戰與未來方向的權衡
7.1 核心挑戰
- 設計標準不明確:模型架構、數據集規模與分佈的最優配置尚缺乏系統指導
- 長序列建模困難:蛋白質序列長度跨度大(30-33,000氨基酸),對硬體條件要求苛刻
- 泛化能力待提升:超大規模模型在下游任務上的泛化能力仍需改進
7.2 未來方向
MSA-free模型:代表了效率與普適性的追求。儘管MSA能顯著提升性能,但其計算成本高、結果不穩定、對孤兒蛋白失效等問題推動了MSA-free模型的發展。
多模態融合:代表了表徵能力的極致追求。序列-結構-功能聯合建模已成為主流趨勢,AlphaFold等結構預測模型的成功解決了訓練數據稀缺問題,這一方向有望為更通用的蛋白質語言建模提供新理解。
八、結論
蛋白質語言模型正處於快速發展期,從早期RNN探索到Transformer主導,從純序列建模到多模態融合,技術路線日趨成熟。擴展定律在蛋白質領域表現出獨特特徵,暗示規模化仍有空間,但數據質量與模型效率同樣重要。
MSA-free模型與多模態融合代表了當前兩大主流趨勢,前者追求效率與普適性,後者追求表徵能力與預測精度。未來PLMs的發展需要在規模、效率、泛化能力之間尋求平衡,同時關注長序列建模等核心技術挑戰。
參考資料:Wang L, Li X, Zhang H, et al. A Comprehensive Review of Protein Language Models. arXiv preprint arXiv:2502.06881, 2025.