← 返回博客列表

摘要:2022年,Meta AI研究團隊發布了ESMFold,這是首個基於大規模蛋白質語言模型的單序列結構預測方法。該方法通過訓練參數量高達150億的ESM-2語言模型,直接從氨基酸序列推斷原子級三維結構,無需多序列比對(MSA)即可實現與AlphaFold2相當的預測精度,同時將推理速度提升最高達60倍。

一、背景:從MSA依賴到單序列預測的典範轉變

蛋白質結構預測的核心挑戰在於如何從一級序列推斷三維構象。傳統方法依賴於多序列比對(MSA)來提取共進化的資訊,即通過分析同源序列中氨基酸的共變來推斷空間上接近的殘基對。AlphaFold2和RoseTTAFold等先進方法正是基於這一典範,通過深度整合MSA資訊實現了接近實驗精度的結構預測。

然而,MSA的構建需要搜尋龐大的序列資料庫,這一過程在使用高靈敏度搜尋協議時可能耗時超過10分鐘,成為計算瓶頸。

蛋白質語言模型(PLMs)的興起為突破這一瓶頸提供了新思路。PLMs通過在數百萬進化多樣的蛋白質序列上進行遮罩語言建模訓練,學習序列間的統計依賴關係。研究者推測,由於蛋白質的結構和功能通過進化約束編碼在序列模式中,語言模型在學習預測缺失氨基酸的過程中,可能隱式地習得結構資訊。這一假設若成立,將意味著可以直接從語言模型的內部表徵中解碼三維結構,從而完全繞過MSA構建步驟。

二、ESM-2:規模驅動的結構資訊湧現

ESMFold的核心是ESM-2語言模型系列,其參數量從800萬擴展到150億,跨越四個數量級。所有模型均採用Transformer架構,以遮罩語言建模為目標函數訓練:隨機遮蔽序列中的部分氨基酸,要求模型根據上下文預測被遮蔽位置的氨基酸身份。

儘管訓練目標僅涉及序列,研究發現隨著模型規模擴大,結構資訊以可預測的方式湧現。模型性能通過困惑度(perplexity)衡量,該指標描述模型在每個位置預測時面臨的平均選擇數。在27萬步訓練後,800萬參數模型的困惑度為10.45,而150億參數模型降至6.37,表明大規模模型對蛋白質序列的理解顯著深化。

更重要的是,這種序列建模能力的提升與結構預測能力的湧現高度相關。

結構資訊湧現的兩個層面

低解析度層面:Transformer的注意力模式天然對應於殘基接觸圖。通過線性投影從注意力圖中提取接觸預測,發現隨著模型規模擴大,長程接觸預測精度持續提升。對於進化深度較高的蛋白質(即訓練集中同源序列較多的蛋白質),改進在較小規模即趨於飽和;而對於進化深度較低的蛋白質,改進持續至最大規模。

高解析度層面:研究者使用等變Transformer從語言模型內部表徵投影原子座標。150億參數模型在CAMEO測試集上達到0.71的TM-score,在CASP14測試集上達到0.54,較1.5億參數模型提升0.064點。值得注意的是,困惑度與TM-score呈現近乎完美的負相關(CASP14: -0.99, CAMEO: -1.00),表明語言建模目標與結構學習存在深層聯繫。

三、ESMFold架構:端到端的單序列預測

基於ESM-2的語言模型能力,研究者開發了ESMFold結構預測網路。該架構將蛋白質序列輸入ESM-2,通過其前饋層處理後,將內部表徵傳遞至折疊頭。折疊頭包含一系列折疊塊,交替更新序列表徵和成對表徵,隨後輸入等變Transformer結構模組,經過三輪循環優化後輸出原子級座標和置信度預測。

與AlphaFold2和RoseTTAFold的對比

與AlphaFold2和RoseTTAFold相比,ESMFold的架構顯著簡化。後兩者通過Evoformer等複雜模組深度整合MSA資訊,在MSA的行和列上執行注意力操作;而ESMFold完全移除了MSA構建和模板搜尋步驟,僅依賴語言模型從單序列提取的表徵。

這種簡化帶來了速度優勢:在NVIDIA V100 GPU上,ESMFold對384殘基蛋白質的預測耗時14.2秒,較單模型AlphaFold2快6倍;在更短序列上,加速比可達約60倍。若計入MSA搜尋時間(高靈敏度協議超過10分鐘),總體加速可達一到兩個數量級。

精度表現

在精度方面,ESMFold在CAMEO測試集(194個結構)上達到平均TM-score 0.83,與RoseTTAFold(0.82)相當;在CASP14測試集(51個結構)上達到0.68,低於使用完整MSA和模板的AlphaFold2(0.85)。這一差距在CASP14上較為明顯,可能反映了該測試集包含更多孤兒蛋白(缺乏同源序列的蛋白質),而這類蛋白正是MSA方法的難點。

有趣的是,當移除AlphaFold2和RoseTTAFold的MSA輸入後,它們的性能顯著下降並低於ESMFold,表明ESMFold在單序列場景下具有優勢。

置信度評分

ESMFold的置信度評分(pLDDT)經過良好校準。在CAMEO上,高置信度預測(pLDDT > 0.7)的LDDT達到0.83,接近AlphaFold2的0.85;當置信度極高(pLDDT > 0.9)時,全原子RMSD95中位數為1.42埃,骨架RMSD95為0.94埃,接近實驗精度。這種校準良好的置信度評分為大規模篩選可靠預測提供了依據。

四、ESM宏基因組圖譜:6.17億結構的進化尺度表徵

ESMFold的速度優勢使其能夠完成前所未有的宏基因組結構表徵。研究團隊對MGnify90資料庫中的6.17億條序列(長度20-1024)進行了結構預測,覆蓋該資料庫99%的序列。這一計算任務在約2000塊GPU組成的異構叢集上於兩週內完成,展示了方法的可擴展性。

預測結果統計

新穎性發現

這些高置信度預測中蘊含大量新穎性。在隨機抽樣的100萬個高置信度結構中:

特別值得注意的是,10.4%的高置信度結構既缺乏結構相似性(TM-score ≤ 0.5)又缺乏序列同源物(相似度 < 30%),代表蛋白質宇宙中的全新區域。

結構相似性揭示的功能關係

ESMFold還揭示了序列無法檢測的遠程結構相似性。例如,宏基因組序列MGYP000936678158在UniRef90和參考蛋白質組中均無顯著序列匹配,但其預測結構與多種核酸酶實驗結構(PDB 5YET、3HR4)具有TM-score約0.67的相似性;另一序列MGYP004000959047同樣缺乏序列匹配,但其結構與細菌固醇結合域(PDB 6BYM、5YQP)高度相似(TM-score 0.78-0.80)。這些發現表明,ESMFold能夠突破序列相似性的限制,通過結構相似性推斷功能關係。

所有預測結構均通過ESM宏基因組圖譜(https://esmatlas.com)開放獲取,支持批量下載、程序化API存取和線上搜尋,為大規模結構生物學研究提供了新資源。

五、討論:優勢、局限與未來展望

ESMFold代表了蛋白質結構預測領域的重要技術進步,其核心貢獻在於證明了語言模型可以從單序列提取足夠的進化資訊以支持原子級結構預測,從而擺脫對傳統MSA的依賴。這一典範轉變帶來了多重優勢:

局限性

然而,該方法也存在明顯局限。在CASP14等包含大量孤兒蛋白的測試集上,ESMFold的精度仍低於使用完整MSA的AlphaFold2,表明對於缺乏進化資訊的蛋白質,MSA方法仍具優勢。此外,ESMFold的精度與語言模型困惑度高度相關,這意味著改進語言模型是提升結構預測的關鍵路徑,但語言模型的訓練成本極高,150億參數模型的訓練需要大量計算資源。

未來展望

從更廣闊的視角看,ESMFold的成功為蛋白質語言模型的擴展定律提供了實證支持:隨著參數、數據和計算量的增加,語言模型持續展現新的能力。研究者指出,當前模型遠未達到理論上可應用的規模極限,未來進一步擴大規模可能帶來低進化深度蛋白質建模能力的提升。

在應用層面,ESMFold的宏基因組圖譜展示了快速結構預測在探索蛋白質宇宙未知區域方面的潛力。數百萬新穎結構的發現為藥物靶點識別、酶工程和新功能蛋白設計提供了豐富素材。隨著預測方法的持續改進和計算能力的提升,對所有已知蛋白質進行結構表徵的目標正變得切實可行。

參考資料

Lin Z, Akin H, Rao R, et al. Evolutionary-scale prediction of atomic level protein structure with a language model. bioRxiv, 2022. doi: 10.1101/2022.07.20.500902