Boltz-1技術解讀：開源生物分子相互作用預測模型

原文：Wohlwend et al., bioRxiv 2024
DOI：10.1101/2024.11.19.624167

摘要

Boltz-1 是 MIT、Genesis Research 和 CHARM Therapeutics 聯合開發的開源生物分子結構預測模型，在 AlphaFold 3 架構基礎上實現多項創新，達到與之相當的預測精度。作為首個完全商業可及的開源模型，Boltz-1 以 MIT 許可證發布訓練代碼、模型權重和數據集。

1. 研發背景

1.1 生物分子結構預測的開源需求

AlphaFold 2 和 AlphaFold 3 的發布標誌著深度學習在蛋白質結構預測領域達到實驗精度水平。然而，這些模型的訓練代碼和模型權重未完全開源，限制了研究社區的進一步創新和應用。社區仍缺乏一個完全開源、商業可及且性能與 AlphaFold 3 相當的模型。

1.2 現有開源模型的局限

現有開源模型在以下方面存在局限：訓練效率不高、置信度預測架構簡單、缺乏有效的物理約束機制、以及數據流程的優化不足。此外，模型幻覺（如鏈重疊）和非物理預測（如手性錯誤、立體衝突）問題普遍存在。

2. 數據流程創新

2.1 數據來源與處理

訓練數據使用 2021年9月30日前發布的 PDB 結構，分辨率至少 9Å。與 AlphaFold 3 不同，Boltz-1 不包含輸入模板。MSA 使用 ColabFold 搜索工具構建，分子構象使用 RDKit 的 ETKDGv3 預計算。

2.2 密集 MSA 配對算法

針對多聚體蛋白質複合物，作者開發了基於分類學信息的新型 MSA 配對算法。該算法利用 UniProt 的分類學標註，更有效地配對來自不同物種的同源序列，提升多鏈複合物的建模準確性。

2.3 統一裁剪算法

結合空間裁剪和連續裁剪策略的優點，統一裁剪算法在訓練時更有效地選擇結構片段。這種混合策略平衡了局部結構細節和全局上下文信息的學習。

3. 模型架構改進

3.1 訓練效率提升

Boltz-1 的訓練效率顯著提升：

Boltz-1：68k 訓練步數，batch size 128
AlphaFold 3：約 150k 步，batch size 256
計算時間減少約 4 倍

3.2 置信度模型創新

置信度模型是 Boltz-1 的關鍵創新。與 AlphaFold 3 使用 4 層 PairFormer 不同，Boltz-1 的置信度模型包含完整的 trunk 組件（AtomAttentionEncoder、MSAModule、48層 PairFormerModule），並初始化為訓練好的 trunk 權重。

此外，模型還聚合擴散模型各時間步的 token 表示，通過時間條件循環塊處理，與 trunk 特徵拼接後輸入置信度模型。這種架構使置信度預測能夠利用擴散過程的完整信息。

3.3 計算優化

Boltz-1 實現了多項計算優化：

序列局部原子表示（32 原子塊僅關注序列空間中最近的 128 原子）
注意力偏置共享與緩存
貪婪對稱性校正
MSA 模塊和三角注意力的分塊處理
trifast 核（基於 Triton 的三角自注意力實現）

4. Boltz-steering 技術

4.1 問題背景

視覺檢查顯示，Boltz-1 預測存在幻覺現象，主要表現為整條鏈直接重疊放置。此外，模型偶爾生成非物理結構，包括：

原子間的立體衝突
鍵長和鍵角略微錯誤
手性中心立體化學錯誤
芳香環非平面預測

4.2 Feynman-Kac 引導框架

Boltz-steering 基於 Feynman-Kac (FK) 引導框架。該方法通過定義勢能函數在每個中間時間步傾斜擴散過程的轉移核，使軌跡偏向最終具有低能量的路徑。採樣使用順序蒙特卡羅（SMC）方法。

4.3 約束勢能

總勢能是多種約束勢能的加權和，每種針對特定物理問題：

四面體原子手性：基於非正當扭轉角，區分 R/S 構型
鍵立體化學：基於扭轉角，區分 E/Z 構型
平面雙鍵：基於非正當扭轉角的平底勢能
內部幾何：基於 RDKit 生成的距離邊界矩陣
碰撞：高噪聲水平應用，懲罰原子重疊
重疊：懲罰整條鏈重疊
共價鍵：確保鍵合原子合理距離

5. 性能評估與局限

5.1 與 AlphaFold 3 的性能對比

論文報告 Boltz-1 在多樣化基準和指標上與 AlphaFold 3 達到相當性能。作者通過自建測試集（593 結構）進行評估，該測試集與訓練集有明確的時間劃分和相似性過濾。

5.2 開源生態的價值與挑戰

作為首個完全商業可及的開源模型（MIT 許可證），Boltz-1 降低了生物分子結構預測的准入門檻，有望促進全球協作、加速發現。然而，開源模式也帶來挑戰：模型維護和更新需要持續的社區貢獻，以及社區支持的可持續性。

5.3 未披露的技術細節

論文未完全披露以下技術細節：模型參數規模的具體數字、訓練計算資源、推理速度基準、以及 Boltz-steering 引入的額外計算開銷對推理時間的影響。

6. 結論

Boltz-1 代表了生物分子結構預測開源化的重要進展。模型在保持與 AlphaFold 3 相當精度的同時，實現了訓練效率的顯著提升，並通過置信度模型架構創新和 Boltz-steering 技術解決了部分關鍵問題。

                未來發展方向
                持續的社區驅動改進
與其他開源工具（如分子動力學、對接程序）的集成
在特定應用領域（如抗體設計、酶工程）的專門優化
訓練數據覆蓋範圍的擴展

            

參考資料：
[1] Wohlwend J, Corso G, Passaro S, et al. Boltz-1: Democratizing Biomolecular Interaction Modeling. bioRxiv 2024. https://doi.org/10.1101/2024.11.19.624167

← 返回博客列表