原文:Wohlwend et al., bioRxiv 2024
DOI:10.1101/2024.11.19.624167

摘要

Boltz-1 是 MIT、Genesis Research 和 CHARM Therapeutics 聯合開發的開源生物分子結構預測模型,在 AlphaFold 3 架構基礎上實現多項創新,達到與之相當的預測精度。作為首個完全商業可及的開源模型,Boltz-1 以 MIT 許可證發布訓練代碼、模型權重和數據集。

1. 研發背景

1.1 生物分子結構預測的開源需求

AlphaFold 2 和 AlphaFold 3 的發布標誌著深度學習在蛋白質結構預測領域達到實驗精度水平。然而,這些模型的訓練代碼和模型權重未完全開源,限制了研究社區的進一步創新和應用。社區仍缺乏一個完全開源、商業可及且性能與 AlphaFold 3 相當的模型。

1.2 現有開源模型的局限

現有開源模型在以下方面存在局限:訓練效率不高、置信度預測架構簡單、缺乏有效的物理約束機制、以及數據流程的優化不足。此外,模型幻覺(如鏈重疊)和非物理預測(如手性錯誤、立體衝突)問題普遍存在。

2. 數據流程創新

2.1 數據來源與處理

訓練數據使用 2021年9月30日前發布的 PDB 結構,分辨率至少 9Å。與 AlphaFold 3 不同,Boltz-1 不包含輸入模板。MSA 使用 ColabFold 搜索工具構建,分子構象使用 RDKit 的 ETKDGv3 預計算。

2.2 密集 MSA 配對算法

針對多聚體蛋白質複合物,作者開發了基於分類學信息的新型 MSA 配對算法。該算法利用 UniProt 的分類學標註,更有效地配對來自不同物種的同源序列,提升多鏈複合物的建模準確性。

2.3 統一裁剪算法

結合空間裁剪和連續裁剪策略的優點,統一裁剪算法在訓練時更有效地選擇結構片段。這種混合策略平衡了局部結構細節和全局上下文信息的學習。

3. 模型架構改進

3.1 訓練效率提升

Boltz-1 的訓練效率顯著提升:

3.2 置信度模型創新

置信度模型是 Boltz-1 的關鍵創新。與 AlphaFold 3 使用 4 層 PairFormer 不同,Boltz-1 的置信度模型包含完整的 trunk 組件(AtomAttentionEncoder、MSAModule、48層 PairFormerModule),並初始化為訓練好的 trunk 權重。

此外,模型還聚合擴散模型各時間步的 token 表示,通過時間條件循環塊處理,與 trunk 特徵拼接後輸入置信度模型。這種架構使置信度預測能夠利用擴散過程的完整信息。

3.3 計算優化

Boltz-1 實現了多項計算優化:

4. Boltz-steering 技術

4.1 問題背景

視覺檢查顯示,Boltz-1 預測存在幻覺現象,主要表現為整條鏈直接重疊放置。此外,模型偶爾生成非物理結構,包括:

4.2 Feynman-Kac 引導框架

Boltz-steering 基於 Feynman-Kac (FK) 引導框架。該方法通過定義勢能函數在每個中間時間步傾斜擴散過程的轉移核,使軌跡偏向最終具有低能量的路徑。採樣使用順序蒙特卡羅(SMC)方法。

4.3 約束勢能

總勢能是多種約束勢能的加權和,每種針對特定物理問題:

5. 性能評估與局限

5.1 與 AlphaFold 3 的性能對比

論文報告 Boltz-1 在多樣化基準和指標上與 AlphaFold 3 達到相當性能。作者通過自建測試集(593 結構)進行評估,該測試集與訓練集有明確的時間劃分和相似性過濾。

5.2 開源生態的價值與挑戰

作為首個完全商業可及的開源模型(MIT 許可證),Boltz-1 降低了生物分子結構預測的准入門檻,有望促進全球協作、加速發現。然而,開源模式也帶來挑戰:模型維護和更新需要持續的社區貢獻,以及社區支持的可持續性。

5.3 未披露的技術細節

論文未完全披露以下技術細節:模型參數規模的具體數字、訓練計算資源、推理速度基準、以及 Boltz-steering 引入的額外計算開銷對推理時間的影響。

6. 結論

Boltz-1 代表了生物分子結構預測開源化的重要進展。模型在保持與 AlphaFold 3 相當精度的同時,實現了訓練效率的顯著提升,並通過置信度模型架構創新和 Boltz-steering 技術解決了部分關鍵問題。

未來發展方向

  • 持續的社區驅動改進
  • 與其他開源工具(如分子動力學、對接程序)的集成
  • 在特定應用領域(如抗體設計、酶工程)的專門優化
  • 訓練數據覆蓋範圍的擴展

參考資料:
[1] Wohlwend J, Corso G, Passaro S, et al. Boltz-1: Democratizing Biomolecular Interaction Modeling. bioRxiv 2024. https://doi.org/10.1101/2024.11.19.624167

← 返回博客列表