原文:Wohlwend et al., bioRxiv 2024
DOI:10.1101/2024.11.19.624167

摘要

Boltz-1 是 MIT、Genesis Research 和 CHARM Therapeutics 联合开发的开源生物分子结构预测模型,在 AlphaFold 3 架构基础上实现多项创新,达到与之相当的预测精度。作为首个完全商业可及的开源模型,Boltz-1 以 MIT 许可证发布训练代码、模型权重和数据集。

1. 研究背景

1.1 生物分子结构预测的开源需求

AlphaFold 2 和 AlphaFold 3 的发布标志着深度学习在蛋白质结构预测领域达到实验精度水平。然而,这些模型的训练代码和模型权重未完全开源,限制了研究社区的进一步创新和应用。社区仍缺乏一个完全开源、商业可及且性能与 AlphaFold 3 相当的模型。

1.2 现有开源模型的局限

现有开源模型在以下方面存在局限:训练效率不高、置信度预测架构简单、缺乏有效的物理约束机制、以及数据流程的优化不足。此外,模型幻觉(如链重叠)和非物理预测(如手性错误、立体冲突)问题普遍存在。

2. 数据流程创新

2.1 数据来源与处理

训练数据使用 2021年9月30日前发布的 PDB 结构,分辨率至少 9Å。与 AlphaFold 3 不同,Boltz-1 不包含输入模板。MSA 使用 ColabFold 搜索工具构建,分子构象使用 RDKit 的 ETKDGv3 预计算。

2.2 密集 MSA 配对算法

针对多聚体蛋白质复合物,作者开发了基于分类学信息的新型 MSA 配对算法。该算法利用 UniProt 的分类学标注,更有效地配对来自不同物种的同源序列,提升多链复合物的建模准确性。

2.3 统一裁剪算法

结合空间裁剪和连续裁剪策略的优点,统一裁剪算法在训练时更有效地选择结构片段。这种混合策略平衡了局部结构细节和全局上下文信息的学习。

3. 模型架构改进

3.1 训练效率提升

Boltz-1 的训练效率显著提升:

3.2 置信度模型创新

置信度模型是 Boltz-1 的关键创新。与 AlphaFold 3 使用 4 层 PairFormer 不同,Boltz-1 的置信度模型包含完整的 trunk 组件(AtomAttentionEncoder、MSAModule、48层 PairFormerModule),并初始化为训练好的 trunk 权重。

此外,模型还聚合扩散模型各时间步的 token 表示,通过时间条件循环块处理,与 trunk 特征拼接后输入置信度模型。这种架构使置信度预测能够利用扩散过程的完整信息。

3.3 计算优化

Boltz-1 实现了多项计算优化:

4. Boltz-steering 技术

4.1 问题背景

视觉检查显示,Boltz-1 预测存在幻觉现象,主要表现为整条链直接重叠放置。此外,模型偶尔生成非物理结构,包括:

4.2 Feynman-Kac 引导框架

Boltz-steering 基于 Feynman-Kac (FK) 引导框架。该方法通过定义势能函数在每个中间时间步倾斜扩散过程的转移核,使轨迹偏向最终具有低能量的路径。采样使用顺序蒙特卡洛(SMC)方法。

4.3 约束势能

总势能是多种约束势能的加权和,每种针对特定物理问题:

5. 性能评估与局限

5.1 与 AlphaFold 3 的性能对比

论文报告 Boltz-1 在多样化基准和指标上与 AlphaFold 3 达到相当性能。作者通过自建测试集(593 结构)进行评估,该测试集与训练集有明确的时间划分和相似性过滤。

5.2 开源生态的价值与挑战

作为首个完全商业可及的开源模型(MIT 许可证),Boltz-1 降低了生物分子结构预测的准入门槛,有望促进全球协作、加速发现。然而,开源模式也带来挑战:模型维护和更新需要持续的社区贡献,以及社区支持的可持续性。

5.3 未披露的技术细节

论文未完全披露以下技术细节:模型参数规模的具体数字、训练计算资源、推理速度基准、以及 Boltz-steering 引入的额外计算开销对推理时间的影响。

6. 结论

Boltz-1 代表了生物分子结构预测开源化的重要进展。模型在保持与 AlphaFold 3 相当精度的同时,实现了训练效率的显著提升,并通过置信度模型架构创新和 Boltz-steering 技术解决了部分关键问题。

未来发展方向

  • 持续的社区驱动改进
  • 与其他开源工具(如分子动力学、对接程序)的集成
  • 在特定应用领域(如抗体设计、酶工程)的专门优化
  • 训练数据覆盖范围的扩展

参考资料:
[1] Wohlwend J, Corso G, Passaro S, et al. Boltz-1: Democratizing Biomolecular Interaction Modeling. bioRxiv 2024. https://doi.org/10.1101/2024.11.19.624167

← 返回博客列表