原文:OpenFold3-preview2 Technical Report (2025)
機構:哥倫比亞大學、勞倫斯利弗莫爾國家實驗室等
摘要
OpenFold3-preview2(OF3p2)是AlphaFold3(AF3)的最新開源復現版本,由哥倫比亞大學、勞倫斯利弗莫爾國家實驗室等機構聯合開發。該版本在訓練數據、模型權重和推理代碼方面完全開源,是目前唯一支持從頭訓練且性能接近AF3的學術復現。基準測試表明,OF3p2在蛋白質-小分子複合物預測上接近AF3性能,在生物聚合物多模態預測上與AF3和Protenix-v1相當。
一、背景
1.1 AlphaFold3的行业意义
2024年,Google DeepMind发布的AlphaFold3代表了生物分子结构预测领域的重大进展。与此前专注于蛋白质结构预测的AlphaFold2不同,AF3将预测范围扩展至包括蛋白质-配体、蛋白质-核酸、蛋白质-抗体等多种生物分子复合物,实现了单一模型对生物分子相互作用的统一建模。
AF3的重要性在于其潜在的应用价值:
- 在药物研发领域,准确的蛋白质-小分子复合物结构预测可显著加速先导化合物优化
- 在合成生物学领域,蛋白质-核酸相互作用预测有助于基因编辑工具的设计
然而,AF3并未开源训练代码和完整数据集,这在一定程度上限制了学术界的独立验证和进一步改进。
1.2 开源复现的必要性
开源复现对于科学研究的透明度和可重复性至关重要。尽管AF3提供了推理服务,但研究人员无法:
- 独立验证报告的性能指标
- 在特定领域数据上进行微调
- 理解模型的内部工作机制
- 针对特定应用场景进行优化
OpenFold项目自启动以来,其核心目标始终是构建一个与AF3性能平价且完全开源的生物分子结构预测系统。OpenFold3-preview2的发布标志着这一目标取得了实质性进展。
二、技术更新要点
2.1 数据集构建
OF3p2在数据集构建方面进行了显著改进:
单体蒸馏集:
- 采用Mgnify 2025_03版本数据库,选取聚类代表序列(聚类成员≥3)
- 对于约500万序列,使用标准OF3 MSA流程(JackHMMer搜索UniRef90、UniProt、Mgnify,HHblits搜索更新版BFD数据库)
- 对于额外1000万序列,采用ColabFold MSA流程(MMseqs2)
- 经Neff≥4.0过滤后,保留约800万序列
RNA蒸馏集:
- 基于RFAM v15.1(而非AF3使用的v14.9),选取聚类代表序列(聚类成员≥3)
- 使用OF3p预测结构,经平均PDE<2过滤后,保留约12.5万RNA结构
2.2 训练策略
OF3p2的总训练步数为155,000步,分为三个阶段:
- 初始阶段:131,500步
- 微调阶段1:8,000步
- 微调阶段2:15,500步
与AF3不同,OF3p2未执行第三阶段的微调,而是从初始训练开始即同步训练PAE(Predicted Aligned Error)置信度头。训练在256块NVIDIA H100 GPU上完成,各阶段在模型选择指标达到明显最大值时终止。
2.3 Bug修复
相较于OF3p,OF3p2修复了多项关键错误:
| 问题 | 影响 | 修复方式 |
|---|---|---|
| 模板模块mask错误 | 错误地将chain ID相乘而非断言一致性 | 修正mask逻辑 |
| 模板pipeline过滤缺失 | 未过滤高比例对齐未解析残基的模板结构 | 增加过滤条件 |
| plDDT计算错误 | 15Å包含半径应用不当,导致评估原子对随预测质量变化 | 修正半径应用逻辑 |
2.4 已知问题
OF3p2训练使用的RNA蒸馏集在MI300A APU上通过rocBLASLt后端生成,事后发现该后端导致结构化学有效性下降。此问题可通过使用rocBLAS后端(NVIDIA GPU不受影响)解决。公开发布的RNA自蒸馏集已使用rocBLAS生成修正版本。
三、基准测试结果
3.1 评估方法
所有基准测试采用统一的推理流程:
- MSA子采样至1,024条序列
- 提供结构模板作为输入
- 运行10次trunk recycle
- 每个MSA种子运行5次diffusion采样(共5个MSA种子)
该流程遵循AF3补充材料中的描述。为确保公平比较,仅报告所有模型均成功预测的严格公共子集结果。
3.2 蛋白质-小分子复合物预测
在Runs N' Poses(RnP)基准测试中,OF3p2表现出以下特征:
整体性能:
- 与Protenix-v1.0在大多数相似度区间性能相近
- 与AF3的差距持续缩小
- AF3在整体性能上仍保持领先
置信度排序问题:OF3p2的ranked性能与oracle性能差距大于AF3,表明其底层生成器能够产生高质量样本,但在基于置信度的排序环节存在不足。
与Boltz-2对比:在调整至Boltz-2训练截止日期的RnP子集上,OF3p2与Boltz-2性能相当。两者oracle性能总体相似,但在ranked性能上各有优劣:
- Boltz-2在高相似度区间(SuCOS-pocket)略占优势
- OF3p2在低相似度区间[0,20]和[40,50]表现较好
3.3 生物聚合物预测
在FoldBench基准测试中,OF3p2的表现因模态而异:
- 蛋白质单体:与AF3相当
- 蛋白质-RNA相互作用:与AF3相当或略优
- 核酸单体、蛋白质-蛋白质相互作用、蛋白质-DNA相互作用:略逊于AF3,但差异大多在统计变异范围内
OF3p2与Protenix-v1性能相近,两者在某些模态上互有优劣。
四、讨论
4.1 主要进展
OF3p2代表了开源生物分子结构预测领域的重要里程碑:
完整可复现性:
- 作为目前唯一功能完整的AF3开源复现
- 提供了训练代码、模型权重和全部数据集
- 支持从头训练
- 对于学术研究的可重复性和透明度具有重要意义
性能接近AF3:
- 在多个基准测试中,OF3p2的性能已接近AF3
- 在特定模态(如蛋白质-RNA相互作用)上甚至达到或超过AF3水平
多模态能力:
- 继承了AF3的统一建模框架
- 能够处理蛋白质、核酸、小分子等多种生物分子类型及其复合物
4.2 局限与挑战
置信度排序瓶颈:
- ranked性能与oracle性能的差距表明,OF3p2在样本质量评估方面仍有改进空间
- 这一问题的根源可能在于置信度头的训练策略——OF3p2从初始阶段即训练PAE头,而AF3采用分阶段微调策略
特定模态性能差距:
- 在核酸单体和某些蛋白质-蛋白质相互作用预测上,OF3p2与AF3仍存在可测量的差距
- 这可能与训练数据分布、蒸馏集质量或特定模态的架构细节有关
计算资源需求:
- 256块H100 GPU的训练配置对于大多数学术机构而言仍属高昂成本
- 限制了独立验证和进一步实验的可及性
4.3 与竞争模型的比较
Protenix-v1:
- 两者性能相近,在FoldBench和RnP基准测试中互有优劣
- Protenix由百度开发,同样基于AF3架构,但训练细节和数据集构成有所不同
Boltz-2:
- 在蛋白质-小分子预测上,OF3p2与Boltz-2在特定相似度区间各有优势
- Boltz-2可访问更大的训练数据集,这可能是其在某些高相似度区间表现更好的原因
Chai-1:
- 作为另一开源竞争者,Chai-1在某些模态上表现优异
- 但OF3p2在整体多模态能力上更为均衡
五、结论
OpenFold3-preview2是目前最接近AlphaFold3性能的开源复现,为学术界提供了可训练、可验证的生物分子结构预测平台。其在蛋白质-小分子和蛋白质-RNA预测上的强劲表现,使其成为AI药物研发工具链中的有力候选。
然而,置信度排序问题仍是制约其实际应用效果的主要瓶颈。未来工作应聚焦于:
- 改进置信度头训练策略
- 优化特定模态(尤其是核酸相关预测)的性能
- 探索更高效的训练方法以降低计算门槛
重要意义:OF3p2的发布标志着开源生物分子结构预测领域进入新阶段——不仅实现了性能平价,更建立了完整的技术栈,为社区的进一步创新和验证奠定了基础。
参考资料:
[1] OpenFold3-preview2 Technical Report (2025)
[2] Abramson, J., et al. "Accurate structure prediction of biomolecular interactions with AlphaFold 3." Nature (2024)
[3] Runs N' Poses benchmark dataset and evaluation protocol
[4] FoldBench: A comprehensive benchmark for biomolecular structure prediction