原文:Wohlwend et al., bioRxiv 2024
DOI:10.1101/2024.11.19.624167
摘要
Boltz-1 是 MIT、Genesis Research 和 CHARM Therapeutics 聯合開發的開源生物分子結構預測模型,在 AlphaFold 3 架構基礎上實現多項創新,達到與之相當的預測精度。作為首個完全商業可及的開源模型,Boltz-1 以 MIT 許可證發布訓練代碼、模型權重和數據集。
1. 研發背景
1.1 生物分子結構預測的開源需求
AlphaFold 2 和 AlphaFold 3 的發布標誌著深度學習在蛋白質結構預測領域達到實驗精度水平。然而,這些模型的訓練代碼和模型權重未完全開源,限制了研究社區的進一步創新和應用。社區仍缺乏一個完全開源、商業可及且性能與 AlphaFold 3 相當的模型。
1.2 現有開源模型的局限
現有開源模型在以下方面存在局限:訓練效率不高、置信度預測架構簡單、缺乏有效的物理約束機制、以及數據流程的優化不足。此外,模型幻覺(如鏈重疊)和非物理預測(如手性錯誤、立體衝突)問題普遍存在。
2. 數據流程創新
2.1 數據來源與處理
訓練數據使用 2021年9月30日前發布的 PDB 結構,分辨率至少 9Å。與 AlphaFold 3 不同,Boltz-1 不包含輸入模板。MSA 使用 ColabFold 搜索工具構建,分子構象使用 RDKit 的 ETKDGv3 預計算。
2.2 密集 MSA 配對算法
針對多聚體蛋白質複合物,作者開發了基於分類學信息的新型 MSA 配對算法。該算法利用 UniProt 的分類學標註,更有效地配對來自不同物種的同源序列,提升多鏈複合物的建模準確性。
2.3 統一裁剪算法
結合空間裁剪和連續裁剪策略的優點,統一裁剪算法在訓練時更有效地選擇結構片段。這種混合策略平衡了局部結構細節和全局上下文信息的學習。
3. 模型架構改進
3.1 訓練效率提升
Boltz-1 的訓練效率顯著提升:
- Boltz-1:68k 訓練步數,batch size 128
- AlphaFold 3:約 150k 步,batch size 256
- 計算時間減少約 4 倍
3.2 置信度模型創新
置信度模型是 Boltz-1 的關鍵創新。與 AlphaFold 3 使用 4 層 PairFormer 不同,Boltz-1 的置信度模型包含完整的 trunk 組件(AtomAttentionEncoder、MSAModule、48層 PairFormerModule),並初始化為訓練好的 trunk 權重。
此外,模型還聚合擴散模型各時間步的 token 表示,通過時間條件循環塊處理,與 trunk 特徵拼接後輸入置信度模型。這種架構使置信度預測能夠利用擴散過程的完整信息。
3.3 計算優化
Boltz-1 實現了多項計算優化:
- 序列局部原子表示(32 原子塊僅關注序列空間中最近的 128 原子)
- 注意力偏置共享與緩存
- 貪婪對稱性校正
- MSA 模塊和三角注意力的分塊處理
- trifast 核(基於 Triton 的三角自注意力實現)
4. Boltz-steering 技術
4.1 問題背景
視覺檢查顯示,Boltz-1 預測存在幻覺現象,主要表現為整條鏈直接重疊放置。此外,模型偶爾生成非物理結構,包括:
- 原子間的立體衝突
- 鍵長和鍵角略微錯誤
- 手性中心立體化學錯誤
- 芳香環非平面預測
4.2 Feynman-Kac 引導框架
Boltz-steering 基於 Feynman-Kac (FK) 引導框架。該方法通過定義勢能函數在每個中間時間步傾斜擴散過程的轉移核,使軌跡偏向最終具有低能量的路徑。採樣使用順序蒙特卡羅(SMC)方法。
4.3 約束勢能
總勢能是多種約束勢能的加權和,每種針對特定物理問題:
- 四面體原子手性:基於非正當扭轉角,區分 R/S 構型
- 鍵立體化學:基於扭轉角,區分 E/Z 構型
- 平面雙鍵:基於非正當扭轉角的平底勢能
- 內部幾何:基於 RDKit 生成的距離邊界矩陣
- 碰撞:高噪聲水平應用,懲罰原子重疊
- 重疊:懲罰整條鏈重疊
- 共價鍵:確保鍵合原子合理距離
5. 性能評估與局限
5.1 與 AlphaFold 3 的性能對比
論文報告 Boltz-1 在多樣化基準和指標上與 AlphaFold 3 達到相當性能。作者通過自建測試集(593 結構)進行評估,該測試集與訓練集有明確的時間劃分和相似性過濾。
5.2 開源生態的價值與挑戰
作為首個完全商業可及的開源模型(MIT 許可證),Boltz-1 降低了生物分子結構預測的准入門檻,有望促進全球協作、加速發現。然而,開源模式也帶來挑戰:模型維護和更新需要持續的社區貢獻,以及社區支持的可持續性。
5.3 未披露的技術細節
論文未完全披露以下技術細節:模型參數規模的具體數字、訓練計算資源、推理速度基準、以及 Boltz-steering 引入的額外計算開銷對推理時間的影響。
6. 結論
Boltz-1 代表了生物分子結構預測開源化的重要進展。模型在保持與 AlphaFold 3 相當精度的同時,實現了訓練效率的顯著提升,並通過置信度模型架構創新和 Boltz-steering 技術解決了部分關鍵問題。
未來發展方向
- 持續的社區驅動改進
- 與其他開源工具(如分子動力學、對接程序)的集成
- 在特定應用領域(如抗體設計、酶工程)的專門優化
- 訓練數據覆蓋範圍的擴展
參考資料:
[1] Wohlwend J, Corso G, Passaro S, et al. Boltz-1: Democratizing Biomolecular Interaction Modeling. bioRxiv 2024. https://doi.org/10.1101/2024.11.19.624167