摘要

蛋白質語言模型(Protein Language Models, PLMs)作為連接自然語言處理與計算生物學的交叉領域,近年來取得了顯著進展。本文基於華中科技大學團隊發表於arXiv的綜述論文(arXiv:2502.06881v1),系統梳理PLMs的技術架構演進、位置編碼策略、擴展定律、數據集構建及下游應用,並客觀分析當前面臨的核心挑戰與未來發展趨勢。

一、背景:當蛋白質遇見語言模型

蛋白質序列與自然語言在概念層面存在顯著相似性:兩者均由離散的"字母"(氨基酸或詞彙)線性排列構成,且都遵循特定的語法規則。這一認知為將自然語言處理技術遷移至蛋白質研究奠定了基礎。

隨著測序技術的快速發展,無標籤蛋白質序列數據呈指數級增長,而Transformer架構的引入與大規模自監督學習的結合,催生了PLMs的爆發式發展。這些模型通過學習蛋白質的分佈式表徵,在結構預測、功能註釋、蛋白質設計等任務中展現出接近甚至超越傳統實驗方法的能力。

二、模型架構的演進軌跡

2.1 早期探索(Transformer之前)

在Transformer出現之前,研究者已嘗試多種神經網絡架構:

這些早期探索為後續Transformer架構的應用積累了寶貴經驗,但受限於並行化能力不足與長序列建模困難等問題,未能實現突破性進展。

2.2 Transformer時代的主流架構

當前主流PLMs均基於Transformer架構,可依據其設計範式分為三類:

編碼器-only模型

採用BERT式雙向編碼,適用於表徵學習與下游任務特徵提取。代表模型:

  • ESM-2:15B參數
  • ESM-3:98B參數,當前編碼器模型的規模上限

解碼器-only模型

採用GPT式自迴歸生成,專注於蛋白質序列生成任務。代表模型:

  • ProGen2:6.4B參數,展示出生成具有催化活性蛋白質的能力
  • RITA:基於旋轉位置編碼

編碼器-解碼器模型

支持序列到序列的轉換任務。代表模型:

  • ProstT5:實現序列與3Di結構token的雙向翻譯
  • xTrimoPGLM:100B參數,探索理解與生成的統一建模

2.3 結構融合趨勢

純序列模型雖能捕捉進化與結構資訊,但缺乏顯式的結構監督。近期模型嘗試多種結構融合策略:

這些嘗試反映了PLMs從單一模態向多模態融合的發展趨勢。

三、位置編碼的技術選擇

Transformer本身不建模位置資訊,需通過位置編碼引入。在PLMs的發展歷程中,位置編碼策略經歷了從絕對到相對的演進:

編碼類型 特點 代表模型
絕對位置編碼 實現簡單、計算高效,但缺乏長度外推能力 ESM-1b、ProtTrans
旋轉位置編碼(RoPE) 兼具長度靈活性與遠程衰減特性,性能優於ALiBI ESM-2、ProGen2、RITA
相對位置編碼 對序列長度不敏感,更適合捕捉結構資訊 T5、DeBERTa

四、擴展定律的適用邊界

OpenAI提出的擴展定律描述了模型性能與參數量、數據量、計算量之間的冪律關係。在PLMs領域,這一定律表現出獨特特徵:

這一發現暗示進一步擴大模型規模與訓練數據仍可能顯著提升PLMs性能。然而,規模化的代價不容忽視:超大規模模型難以泛化至下游任務,需要高效的架構設計與微調策略。

五、數據體系的構建邏輯

5.1 序列數據

5.2 結構數據

5.3 評估基準

六、下游應用的能力邊界

6.1 結構預測

MSA-free模型成為近期主流方向。ESMFold、HelixFold-Single等單序列模型通過大規模訓練隱式學習共進化的資訊,在孤兒蛋白上表現優於單序列版AlphaFold2,且計算速度顯著提升。

6.2 功能預測

PLMs提供的豐富嵌入資訊為功能預測提供了新途徑。DeepFRI、GPSFun等模型嘗試融合結構資訊,PhiGnet引入殘基功能貢獻量化方法,增強了預測可解釋性。

6.3 蛋白質設計

6.4 突變效應預測

零樣本預測成為PLMs的重要應用場景。ESM-1v、MSA-Transformer等模型無需實驗數據即可預測突變對蛋白質適應度的影響,AlphaMissense、ProSST等多模態模型達到當前最優性能。

七、挑戰與未來方向的權衡

7.1 核心挑戰

7.2 未來方向

MSA-free模型:代表了效率與普適性的追求。儘管MSA能顯著提升性能,但其計算成本高、結果不穩定、對孤兒蛋白失效等問題推動了MSA-free模型的發展。

多模態融合:代表了表徵能力的極致追求。序列-結構-功能聯合建模已成為主流趨勢,AlphaFold等結構預測模型的成功解決了訓練數據稀缺問題,這一方向有望為更通用的蛋白質語言建模提供新理解。

八、結論

蛋白質語言模型正處於快速發展期,從早期RNN探索到Transformer主導,從純序列建模到多模態融合,技術路線日趨成熟。擴展定律在蛋白質領域表現出獨特特徵,暗示規模化仍有空間,但數據質量與模型效率同樣重要。

MSA-free模型與多模態融合代表了當前兩大主流趨勢,前者追求效率與普適性,後者追求表徵能力與預測精度。未來PLMs的發展需要在規模、效率、泛化能力之間尋求平衡,同時關注長序列建模等核心技術挑戰。

參考資料:Wang L, Li X, Zhang H, et al. A Comprehensive Review of Protein Language Models. arXiv preprint arXiv:2502.06881, 2025.

← 返回博客列表