原文:Boitreaud et al., bioRxiv 2024
DOI:10.1101/2024.10.10.615955

摘要

Chai-1 是一款多模態分子結構預測基礎模型,在蛋白質-配體相互作用預測和蛋白質多聚體預測等多個任務上達到了業界領先水平。該模型的特色在於支持實驗約束提示(如交聯質譜、表位映射數據),可顯著提升預測準確性;同時具備單序列預測能力,無需多序列比對(MSA)即可保持較高性能。模型權重和推理代碼以非商業用途開源,同時提供可免費商用的 Web 界面。

1. 背景:結構預測的新階段

2024年,分子結構預測領域進入了多模態融合的新階段。AlphaFold3 的發布展示了統一框架處理多種生物分子類型的可能性,而 Chai-1 則在此基礎上進一步探索了實驗數據與計算模型的融合路徑。

蛋白質結構預測的傳統範式依賴於多序列比對(MSA)來捕捉共進化的資訊。然而,MSA 的獲取需要同源序列的存在,對於某些蛋白質(如抗體可變區)可能難以獲得深度 MSA。此外,實驗技術(如交聯質譜、表位映射)可以提供額外的空間約束資訊,但如何將這些資訊有效整合到預測模型中,一直是一個開放問題。

Chai-1 的設計目標正是解決這些問題:單序列預測能力、實驗約束整合、多任務統一

2. 技術架構與創新

2.1 基礎架構

Chai-1 的神經網絡架構主要基於 AlphaFold3 的設計,採用 pair-bias self-attention 機制。關鍵差異在於使用單一模型策略處理所有評估任務,訓練數據截止於 2021-01-12。

2.2 語言模型嵌入

Chai-1 引入了蛋白質語言模型的嵌入作為額外輸入軌道,使用 30 億參數的語言模型生成殘基級嵌入。這一設計使 Chai-1 在單序列模式下仍能保持較高準確性。

2.3 約束特徵

Chai-1 支持多種實驗約束特徵:

3. 性能評估

3.1 蛋白質-配體預測

在 PoseBusters 基準測試上,Chai-1 達到 77% 成功率(配體 RMSD < 2Å),與 AlphaFold3 的 76% 相當。加入 apo 結構提示後,成功率提升至 81%

3.2 蛋白質多聚體預測

在低同源性的蛋白質-蛋白質界面評估集(n=929 界面聚類)上:

統計檢驗顯示 Chai-1 顯著優於 AF-Multimer 2.3(p = 6.24 × 10^-10)。

3.3 抗體-蛋白質界面預測

在抗體-蛋白質界面子集上,Chai-1 單序列模式與完整模式性能相近,甚至優於使用 MSA 的 AF-Multimer 2.3。這一發現具有重要意義:抗體可變區序列多樣性高,MSA 資訊有限,單序列方法在此類任務上具有天然優勢。

3.4 約束提示的效果

在抗體-抗原複合物預測中,實驗約束的效果顯著:

4. 開源與可用性

Chai-1 採用了分層開放策略:模型權重和推理代碼以 Python 包形式發布(非商業用途);Web 界面可免費用於商業藥物發現。這種策略在促進學術研究和支持商業應用之間取得了平衡。

5. 局限性與討論

5.1 已知局限

5.2 與 AlphaFold3 的比較

Chai-1 與 AlphaFold3 在基準測試性能上相當,但 Chai-1 的約束提示功能和單序列能力為其在特定應用場景中提供了差異化優勢。

6. 結論

Chai-1 代表了分子結構預測領域向多模態融合方向發展的重要嘗試。通過整合蛋白質語言模型嵌入和實驗約束特徵,該模型在保持與 AlphaFold3 相當性能的同時,拓展了單序列預測和實驗數據整合的能力。對於藥物發現領域,Chai-1 的開源策略和免費商用 Web 界面降低了使用門檻,其抗體-蛋白質界面預測能力對抗體藥物研發具有直接應用價值。

參考資料

Boitreaud, J., et al. (2024). Chai-1: Decoding the molecular interactions of life. bioRxiv. https://doi.org/10.1101/2024.10.10.615955

代碼:https://github.com/chaidiscovery/chai-lab/
Web界面:https://lab.chaidiscovery.com/

← 返回博客列表