Boltz-1技术解读：开源生物分子相互作用预测模型

原文：Wohlwend et al., bioRxiv 2024
DOI：10.1101/2024.11.19.624167

摘要

Boltz-1 是 MIT、Genesis Research 和 CHARM Therapeutics 联合开发的开源生物分子结构预测模型，在 AlphaFold 3 架构基础上实现多项创新，达到与之相当的预测精度。作为首个完全商业可及的开源模型，Boltz-1 以 MIT 许可证发布训练代码、模型权重和数据集。

1. 研究背景

1.1 生物分子结构预测的开源需求

AlphaFold 2 和 AlphaFold 3 的发布标志着深度学习在蛋白质结构预测领域达到实验精度水平。然而，这些模型的训练代码和模型权重未完全开源，限制了研究社区的进一步创新和应用。社区仍缺乏一个完全开源、商业可及且性能与 AlphaFold 3 相当的模型。

1.2 现有开源模型的局限

现有开源模型在以下方面存在局限：训练效率不高、置信度预测架构简单、缺乏有效的物理约束机制、以及数据流程的优化不足。此外，模型幻觉（如链重叠）和非物理预测（如手性错误、立体冲突）问题普遍存在。

2. 数据流程创新

2.1 数据来源与处理

训练数据使用 2021年9月30日前发布的 PDB 结构，分辨率至少 9Å。与 AlphaFold 3 不同，Boltz-1 不包含输入模板。MSA 使用 ColabFold 搜索工具构建，分子构象使用 RDKit 的 ETKDGv3 预计算。

2.2 密集 MSA 配对算法

针对多聚体蛋白质复合物，作者开发了基于分类学信息的新型 MSA 配对算法。该算法利用 UniProt 的分类学标注，更有效地配对来自不同物种的同源序列，提升多链复合物的建模准确性。

2.3 统一裁剪算法

结合空间裁剪和连续裁剪策略的优点，统一裁剪算法在训练时更有效地选择结构片段。这种混合策略平衡了局部结构细节和全局上下文信息的学习。

3. 模型架构改进

3.1 训练效率提升

Boltz-1 的训练效率显著提升：

Boltz-1：68k 训练步数，batch size 128
AlphaFold 3：约 150k 步，batch size 256
计算时间减少约 4 倍

3.2 置信度模型创新

置信度模型是 Boltz-1 的关键创新。与 AlphaFold 3 使用 4 层 PairFormer 不同，Boltz-1 的置信度模型包含完整的 trunk 组件（AtomAttentionEncoder、MSAModule、48层 PairFormerModule），并初始化为训练好的 trunk 权重。

此外，模型还聚合扩散模型各时间步的 token 表示，通过时间条件循环块处理，与 trunk 特征拼接后输入置信度模型。这种架构使置信度预测能够利用扩散过程的完整信息。

3.3 计算优化

Boltz-1 实现了多项计算优化：

序列局部原子表示（32 原子块仅关注序列空间中最近的 128 原子）
注意力偏置共享与缓存
贪婪对称性校正
MSA 模块和三角注意力的分块处理
trifast 核（基于 Triton 的三角自注意力实现）

4. Boltz-steering 技术

4.1 问题背景

视觉检查显示，Boltz-1 预测存在幻觉现象，主要表现为整条链直接重叠放置。此外，模型偶尔生成非物理结构，包括：

原子间的立体冲突
键长和键角略微错误
手性中心立体化学错误
芳香环非平面预测

4.2 Feynman-Kac 引导框架

Boltz-steering 基于 Feynman-Kac (FK) 引导框架。该方法通过定义势能函数在每个中间时间步倾斜扩散过程的转移核，使轨迹偏向最终具有低能量的路径。采样使用顺序蒙特卡洛（SMC）方法。

4.3 约束势能

总势能是多种约束势能的加权和，每种针对特定物理问题：

四面体原子手性：基于非正当扭转角，区分 R/S 构型
键立体化学：基于扭转角，区分 E/Z 构型
平面双键：基于非正当扭转角的平底势能
内部几何：基于 RDKit 生成的距离边界矩阵
碰撞：高噪声水平应用，惩罚原子重叠
重叠：惩罚整条链重叠
共价键：确保键合原子合理距离

5. 性能评估与局限

5.1 与 AlphaFold 3 的性能对比

论文报告 Boltz-1 在多样化基准和指标上与 AlphaFold 3 达到相当性能。作者通过自建测试集（593 结构）进行评估，该测试集与训练集有明确的时间划分和相似性过滤。

5.2 开源生态的价值与挑战

作为首个完全商业可及的开源模型（MIT 许可证），Boltz-1 降低了生物分子结构预测的准入门槛，有望促进全球协作、加速发现。然而，开源模式也带来挑战：模型维护和更新需要持续的社区贡献，以及社区支持的可持续性。

5.3 未披露的技术细节

论文未完全披露以下技术细节：模型参数规模的具体数字、训练计算资源、推理速度基准、以及 Boltz-steering 引入的额外计算开销对推理时间的影响。

6. 结论

Boltz-1 代表了生物分子结构预测开源化的重要进展。模型在保持与 AlphaFold 3 相当精度的同时，实现了训练效率的显著提升，并通过置信度模型架构创新和 Boltz-steering 技术解决了部分关键问题。

                未来发展方向
                持续的社区驱动改进
与其他开源工具（如分子动力学、对接程序）的集成
在特定应用领域（如抗体设计、酶工程）的专门优化
训练数据覆盖范围的扩展

            

参考资料：
[1] Wohlwend J, Corso G, Passaro S, et al. Boltz-1: Democratizing Biomolecular Interaction Modeling. bioRxiv 2024. https://doi.org/10.1101/2024.11.19.624167

← 返回博客列表