原文:Wohlwend et al., bioRxiv 2024
DOI:10.1101/2024.11.19.624167
摘要
Boltz-1 是 MIT、Genesis Research 和 CHARM Therapeutics 联合开发的开源生物分子结构预测模型,在 AlphaFold 3 架构基础上实现多项创新,达到与之相当的预测精度。作为首个完全商业可及的开源模型,Boltz-1 以 MIT 许可证发布训练代码、模型权重和数据集。
1. 研究背景
1.1 生物分子结构预测的开源需求
AlphaFold 2 和 AlphaFold 3 的发布标志着深度学习在蛋白质结构预测领域达到实验精度水平。然而,这些模型的训练代码和模型权重未完全开源,限制了研究社区的进一步创新和应用。社区仍缺乏一个完全开源、商业可及且性能与 AlphaFold 3 相当的模型。
1.2 现有开源模型的局限
现有开源模型在以下方面存在局限:训练效率不高、置信度预测架构简单、缺乏有效的物理约束机制、以及数据流程的优化不足。此外,模型幻觉(如链重叠)和非物理预测(如手性错误、立体冲突)问题普遍存在。
2. 数据流程创新
2.1 数据来源与处理
训练数据使用 2021年9月30日前发布的 PDB 结构,分辨率至少 9Å。与 AlphaFold 3 不同,Boltz-1 不包含输入模板。MSA 使用 ColabFold 搜索工具构建,分子构象使用 RDKit 的 ETKDGv3 预计算。
2.2 密集 MSA 配对算法
针对多聚体蛋白质复合物,作者开发了基于分类学信息的新型 MSA 配对算法。该算法利用 UniProt 的分类学标注,更有效地配对来自不同物种的同源序列,提升多链复合物的建模准确性。
2.3 统一裁剪算法
结合空间裁剪和连续裁剪策略的优点,统一裁剪算法在训练时更有效地选择结构片段。这种混合策略平衡了局部结构细节和全局上下文信息的学习。
3. 模型架构改进
3.1 训练效率提升
Boltz-1 的训练效率显著提升:
- Boltz-1:68k 训练步数,batch size 128
- AlphaFold 3:约 150k 步,batch size 256
- 计算时间减少约 4 倍
3.2 置信度模型创新
置信度模型是 Boltz-1 的关键创新。与 AlphaFold 3 使用 4 层 PairFormer 不同,Boltz-1 的置信度模型包含完整的 trunk 组件(AtomAttentionEncoder、MSAModule、48层 PairFormerModule),并初始化为训练好的 trunk 权重。
此外,模型还聚合扩散模型各时间步的 token 表示,通过时间条件循环块处理,与 trunk 特征拼接后输入置信度模型。这种架构使置信度预测能够利用扩散过程的完整信息。
3.3 计算优化
Boltz-1 实现了多项计算优化:
- 序列局部原子表示(32 原子块仅关注序列空间中最近的 128 原子)
- 注意力偏置共享与缓存
- 贪婪对称性校正
- MSA 模块和三角注意力的分块处理
- trifast 核(基于 Triton 的三角自注意力实现)
4. Boltz-steering 技术
4.1 问题背景
视觉检查显示,Boltz-1 预测存在幻觉现象,主要表现为整条链直接重叠放置。此外,模型偶尔生成非物理结构,包括:
- 原子间的立体冲突
- 键长和键角略微错误
- 手性中心立体化学错误
- 芳香环非平面预测
4.2 Feynman-Kac 引导框架
Boltz-steering 基于 Feynman-Kac (FK) 引导框架。该方法通过定义势能函数在每个中间时间步倾斜扩散过程的转移核,使轨迹偏向最终具有低能量的路径。采样使用顺序蒙特卡洛(SMC)方法。
4.3 约束势能
总势能是多种约束势能的加权和,每种针对特定物理问题:
- 四面体原子手性:基于非正当扭转角,区分 R/S 构型
- 键立体化学:基于扭转角,区分 E/Z 构型
- 平面双键:基于非正当扭转角的平底势能
- 内部几何:基于 RDKit 生成的距离边界矩阵
- 碰撞:高噪声水平应用,惩罚原子重叠
- 重叠:惩罚整条链重叠
- 共价键:确保键合原子合理距离
5. 性能评估与局限
5.1 与 AlphaFold 3 的性能对比
论文报告 Boltz-1 在多样化基准和指标上与 AlphaFold 3 达到相当性能。作者通过自建测试集(593 结构)进行评估,该测试集与训练集有明确的时间划分和相似性过滤。
5.2 开源生态的价值与挑战
作为首个完全商业可及的开源模型(MIT 许可证),Boltz-1 降低了生物分子结构预测的准入门槛,有望促进全球协作、加速发现。然而,开源模式也带来挑战:模型维护和更新需要持续的社区贡献,以及社区支持的可持续性。
5.3 未披露的技术细节
论文未完全披露以下技术细节:模型参数规模的具体数字、训练计算资源、推理速度基准、以及 Boltz-steering 引入的额外计算开销对推理时间的影响。
6. 结论
Boltz-1 代表了生物分子结构预测开源化的重要进展。模型在保持与 AlphaFold 3 相当精度的同时,实现了训练效率的显著提升,并通过置信度模型架构创新和 Boltz-steering 技术解决了部分关键问题。
未来发展方向
- 持续的社区驱动改进
- 与其他开源工具(如分子动力学、对接程序)的集成
- 在特定应用领域(如抗体设计、酶工程)的专门优化
- 训练数据覆盖范围的扩展
参考资料:
[1] Wohlwend J, Corso G, Passaro S, et al. Boltz-1: Democratizing Biomolecular Interaction Modeling. bioRxiv 2024. https://doi.org/10.1101/2024.11.19.624167