原文:Passaro et al., bioRxiv 2025
DOI:10.1101/2025.06.14.659707
摘要
Boltz-2 是 MIT、Valence Labs 和 ETH Zurich 联合开发的开源生物分子结构预测模型,在 Boltz-1 基础上实现显著改进。模型在保持结构预测能力的同时,首次使 AI 模型的结合亲和力预测精度接近自由能微扰(FEP)方法水平,计算效率提升超过 1000 倍。
1. 研究背景
1.1 结构预测与亲和力预测的分离现状
近年来,AlphaFold 3 和 Boltz-1 等模型显著提升了生物分子复合物结构预测的准确性。然而,这些模型在预测结合亲和力(衡量分子结合强度的关键属性)方面仍存在明显不足。结构预测与亲和力预测的能力分离限制了模型在药物发现中的实际应用价值。
1.2 FEP 方法的精度与计算成本矛盾
自由能微扰(FEP)方法是当前最准确的亲和力计算技术,但其计算成本极高,无法在大规模筛选中实用。分子对接等方法速度较快,但精度不足以提供可靠的信号。这种精度与计算成本的长期权衡制约了计算药物发现的效率。
1.3 现有 AI 方法的局限
现有基于 AI 的亲和力预测模型尚未达到 FEP 方法或实验室检测的精度。主要挑战包括:公开结合数据的实验差异和噪声、训练信号的选择困难、以及结构预测与亲和力预测之间的表示学习鸿沟。
2. 数据流程创新
2.1 结构数据扩展
与 Boltz-1 仅使用单一结构不同,Boltz-2 利用来自实验技术(NMR)和计算方法(分子动力学)的系综数据。实验数据包括 2023年6月1日前发布的 PDB 结构。MD 数据来自三个大规模开放项目:MISATO、ATLAS 和 mdCATH。
2.2 亲和力数据整理
亲和力数据来自 ChEMBL、PubChem 和 BindingDB 等公共数据库。数据整理策略聚焦四个方面:仅保留高质量检测、通过合成诱饵数据降低数据偏倚、减少过拟合、通过置信度分数过滤确保结构质量。
2.3 混合监督策略
为支持苗头化合物发现和先导化合物优化两种不同场景,模型采用混合数据集,包含二元分类标签和连续亲和力值。对于连续值(Ki、Kd、IC50 等),所有值转换为以 µM 为单位的对数尺度。
2.4 合成诱饵生成
为扩展负样本池并改善化学空间覆盖,模型通过在不同靶点间随机打乱 hit-to-lead 筛选中识别的结合物来生成合成诱饵。最终数据集包含约 140 万结合物和超过 300 万诱饵,涵盖约 3000 个独特蛋白质簇。
3. 模型架构改进
3.1 架构组件
Boltz-2 架构包含四个主要组件:
- trunk:计算最密集部分,使用 bfloat16 混合精度和 trifast 核优化
- 去噪模块:集成 Boltz-steering 物理约束
- 置信度模块
- 亲和力模块(新增)
训练裁剪尺寸扩展至 768 tokens,与 AlphaFold 3 相当。
3.2 可控性增强
模型引入三项关键控制功能:
- 实验方法条件化:允许指定 X-ray、NMR 或 MD 等预测应对齐的结构预测方法类型
- 模板条件化与引导:整合相似复合物结构,支持多链模板
- 接触和口袋条件化:允许指定来自实验技术或人类直觉的特定距离约束
3.3 亲和力模块
亲和力模块由 PairFormer 和两个预测头组成:一个预测结合可能性,另一个回归连续亲和力值。模块作用于 Boltz-2 的结构预测,利用成对表示和经过专门关注蛋白-配体和配体内相互作用的 PairFormer 模型精化的预测坐标。
3.4 物理质量约束
Boltz-2 集成 Boltz-steering(作为 Boltz-1x 发布的一部分引入)——一种在推理时应用基于物理势能的方法,在不牺牲准确性的情况下改善物理合理性。集成此方法的版本称为 Boltz-2x。
4. 训练策略
4.1 三阶段训练
模型训练分为三个阶段:结构训练、置信度训练和亲和力训练。亲和力训练在结构和置信度训练之后进行,梯度从 trunk 分离。
4.2 亲和力训练细节
亲和力训练流程包含多个关键组件:预计算和裁剪结合口袋、trunk 表示预处理和自定义采样策略、批次构建关注局部化学变化。监督联合应用于二元和连续亲和力任务:
- 连续值使用 Huber 损失监督
- 二元分类使用 Focal 损失以解决类别不平衡
4.3 与生成模型耦合
Boltz-2 用于训练分子生成器(SynFlowNet)以产生具有高结合分数的小分子。生成智能体采用 GFlowNet 损失函数,使其能够从任意和多模态分数分布中采样。
5. 性能评估与局限
5.1 结构预测性能
在 2024-2025 年提交的 PDB 结构评估集上,Boltz-2 在各模态上与 Boltz-1 相当或适度改进。改进最显著的模态是 RNA 链和 DNA-蛋白复合物。与 Chai-1 和 ProteinX 等其他商业可用模型相比,Boltz-2 表现具有竞争力,但仍稍落后于 AlphaFold 3。
5.2 动态性能
在 mdCATH 和 ATLAS 数据集的保留簇上,MD 条件化对预测系综有明显影响,导致更多样化的结构,更好地捕捉模拟的构象多样性。Boltz-2 在预测关键动态属性(如 RMSF)方面与近期专用模型表现相当。
5.3 亲和力预测性能
在 FEP+ 基准(4 靶点子集:CDK2、TYK2、JNK1、P38)上,Boltz-2 显著优于深度学习基线,接近基于 FEP 方法的准确性,同时速度提升超过 1000 倍。在 CASP16 亲和力赛道的回顾性评估中,Boltz-2 开箱即用地优于所有提交的参赛作品。
5.4 前瞻性案例
在 TYK2 靶点的前瞻性筛选中,Boltz-2 与生成模型(SynFlowNet)耦合的工作流程成功生成多样化、可合成的高亲和力结合物,经绝对结合自由能(ABFE)模拟验证。
5.5 局限性与信息缺口
论文未完全披露以下技术细节:模型参数规模的具体数字、训练计算资源、推理速度基准与 AlphaFold 3 的直接对比、以及亲和力预测在不同化学系列中的泛化能力评估。与 AlphaFold 3 在结构预测上的差距(尤其在抗体-抗原预测上)表明,开放模型在某些任务上仍落后于专有模型。
6. 结论
Boltz-2 代表了开源生物分子建模领域的重要进展,首次在统一框架内实现了与 FEP 方法相当的亲和力预测精度和接近 AlphaFold 3 的结构预测能力。计算效率提升超过 1000 倍的亲和力预测为大规模虚拟筛选和先导优化提供了实用工具。
未来发展方向
- 进一步缩小与专有模型的结构预测差距
- 扩展亲和力预测的化学空间覆盖
- 深化与生成模型的集成以实现端到端分子设计
- 建立更标准化的亲和力预测基准以促进社区协作
参考资料:
[1] Passaro S, Corso G, Wohlwend J, et al. Boltz-2: Towards Accurate and Efficient Binding Affinity Prediction. bioRxiv 2025. https://doi.org/10.1101/2025.06.14.659707