蛋白質是生命活動的基礎分子,其三維結構決定了生物學功能。理解蛋白質結構對於揭示生命機制、藥物研發、疾病治療具有關鍵意義。然而,通過實驗方法(如X射線晶體學、冷凍電鏡、NMR)測定蛋白質結構需要耗費數月甚至數年時間,且成本高昂。

截至2021年,儘管實驗方法已解析約10萬個獨特蛋白質結構,但這僅佔已知數十億蛋白質序列的極小比例。從氨基酸序列預測三維結構(即"蛋白質摺疊問題")是超過50年的開放研究難題。

一、研發背景

CASP(Critical Assessment of protein Structure Prediction)是每兩年舉辦一次的蛋白質結構預測領域權威評估,使用尚未公開的近期解析結構作為盲測數據。AlphaFold2在2020年的CASP14競賽中取得了突破性成績,標誌著蛋白質摺疊問題被"基本解決"。

二、技術路徑與原理

2.1 整體架構

AlphaFold2採用端到端的深度神經網絡架構,直接從氨基酸序列和同源序列比對(MSA)預測所有重原子的3D坐標。系統接收目標蛋白質的氨基酸序列,將其與其他相似蛋白質序列進行比對,通過進化耦合分析識別在進化過程中傾向於協同變異的序列片段。

尤為關鍵的是,AlphaFold2同時提供pLDDT(預測局部距離差異測試)、pTM(預測模板建模分數)和PAE(預測對齊誤差)等置信度指標,為後續分析提供關鍵判斷依據。

2.2 模型輸入

從用戶視角來看,AlphaFold2僅需要輸入蛋白質序列。但該系統實際通過構建多序列比對(MSA)進行分析——即將多個相似蛋白質序列進行並行排列。高質量的MSA是AlphaFold2準確預測蛋白質結構的關鍵。

2.3 網絡模型

AlphaFold2使用的神經網絡模型包含兩個主要部分:

2.4 關鍵技術創新

Evoformer核心創新

  • 將蛋白質結構預測視為3D空間中的圖推理問題
  • 三角形更新與注意力:基於幾何約束設計
  • 信息交換機制:MSA與配對表示相互更新

結構模塊創新

  • 殘基氣體表示:將每個殘基初始化為獨立的剛體框架
  • 不變點注意力(IPA):允許網絡隱式推理側鏈原子
  • 迭代優化:通過回收(Recycling)機制多次應用整個網絡

三、模型性能

3.1 CASP14競賽結果

此前,通過全局距離測試(GDT_TS)衡量的整體結構預測精度最高僅達到約60分。而AlphaFold2的得分超過了90分——這一分數意味著預測的蛋白質結構與實驗解析結構高度吻合。

指標 AlphaFold2 次優方法 提升幅度
主鏈精度 (Cα r.m.s.d.₉₅) 0.96 Å 2.8 Å 2.9倍
全原子精度 (r.m.s.d.₉₅) 1.5 Å 3.5 Å 2.3倍

註:碳原子寬度約1.4 Å,AlphaFold2精度接近原子尺度

3.2 結構生物學驗證

結構生物學實驗表明,AlphaFold2預測的結構能夠作為X射線晶體學中分子置換的搜索模型,能很好地匹配冷凍電鏡獲得的實驗密度圖,即使蛋白質處於溶液狀態也能保持良好匹配度。

3.3 廣泛應用

四、技術局限性

AlphaFold2存在以下局限:

  1. 結構動態性:預測的是蛋白質的靜態結構,無法捕捉動態構象變化和柔性區域
  2. 複合物與相互作用:主要針對單鏈蛋白質優化,對蛋白質-蛋白質複合物、蛋白質-配體相互作用的預測精度有限
  3. 內在無序區域:對內在無序蛋白質(IDP)的預測能力有限
  4. 膜蛋白:對膜蛋白的預測精度通常低於可溶性蛋白
  5. 點突變效應:難以準確預測單點突變對結構的影響

五、總結與展望

AlphaFold2代表了蛋白質結構預測領域的里程碑式突破,首次實現了在大多數情況下達到實驗精度的計算預測。其核心創新在於:

儘管存在一定的技術局限,AlphaFold2為結構生物學、藥物發現和蛋白質工程開辟了新的可能性,其開源實現(AlphaFold DB)已預測了超過2億種蛋白質結構,極大推動了生命科學的發展。

2024年諾貝爾化學獎被授予AlphaFold2的主要作者John Jumper和Demis Hassabis,以及蛋白質設計先驅David Baker,以表彰他們在蛋白質結構預測和設計領域的貢獻。

AlphaFold2開啟了一個全新的AI for Science (AI4S)時代,啟迪並激勵新一代的研究人員借助AI的能力,拓展生物醫學領域的邊界。

本報告基於Jumper et al. (2021) Nature論文及其他學術資源撰寫

← 返回博客列表