原文:OpenFold3-preview2 Technical Report (2025)
机构:哥伦比亚大学、劳伦斯利弗莫尔国家实验室等

摘要

OpenFold3-preview2(OF3p2)是AlphaFold3(AF3)的最新开源复现版本,由哥伦比亚大学、劳伦斯利弗莫尔国家实验室等机构联合开发。该版本在训练数据、模型权重和推理代码方面完全开源,是目前唯一支持从头训练且性能接近AF3的学术复现。基准测试表明,OF3p2在蛋白质-小分子复合物预测上接近AF3性能,在生物聚合物多模态预测上与AF3和Protenix-v1相当。

一、背景

1.1 AlphaFold3的行业意义

2024年,Google DeepMind发布的AlphaFold3代表了生物分子结构预测领域的重大进展。与此前专注于蛋白质结构预测的AlphaFold2不同,AF3将预测范围扩展至包括蛋白质-配体、蛋白质-核酸、蛋白质-抗体等多种生物分子复合物,实现了单一模型对生物分子相互作用的统一建模。

AF3的重要性在于其潜在的应用价值:

然而,AF3并未开源训练代码和完整数据集,这在一定程度上限制了学术界的独立验证和进一步改进。

1.2 开源复现的必要性

开源复现对于科学研究的透明度和可重复性至关重要。尽管AF3提供了推理服务,但研究人员无法:

OpenFold项目自启动以来,其核心目标始终是构建一个与AF3性能平价且完全开源的生物分子结构预测系统。OpenFold3-preview2的发布标志着这一目标取得了实质性进展。

二、技术更新要点

2.1 数据集构建

OF3p2在数据集构建方面进行了显著改进:

单体蒸馏集:

RNA蒸馏集:

2.2 训练策略

OF3p2的总训练步数为155,000步,分为三个阶段:

与AF3不同,OF3p2未执行第三阶段的微调,而是从初始训练开始即同步训练PAE(Predicted Aligned Error)置信度头。训练在256块NVIDIA H100 GPU上完成,各阶段在模型选择指标达到明显最大值时终止。

2.3 Bug修复

相较于OF3p,OF3p2修复了多项关键错误:

问题 影响 修复方式
模板模块mask错误 错误地将chain ID相乘而非断言一致性 修正mask逻辑
模板pipeline过滤缺失 未过滤高比例对齐未解析残基的模板结构 增加过滤条件
plDDT计算错误 15Å包含半径应用不当,导致评估原子对随预测质量变化 修正半径应用逻辑

2.4 已知问题

OF3p2训练使用的RNA蒸馏集在MI300A APU上通过rocBLASLt后端生成,事后发现该后端导致结构化学有效性下降。此问题可通过使用rocBLAS后端(NVIDIA GPU不受影响)解决。公开发布的RNA自蒸馏集已使用rocBLAS生成修正版本。

三、基准测试结果

3.1 评估方法

所有基准测试采用统一的推理流程:

该流程遵循AF3补充材料中的描述。为确保公平比较,仅报告所有模型均成功预测的严格公共子集结果。

3.2 蛋白质-小分子复合物预测

在Runs N' Poses(RnP)基准测试中,OF3p2表现出以下特征:

整体性能:

置信度排序问题:OF3p2的ranked性能与oracle性能差距大于AF3,表明其底层生成器能够产生高质量样本,但在基于置信度的排序环节存在不足。

与Boltz-2对比:在调整至Boltz-2训练截止日期的RnP子集上,OF3p2与Boltz-2性能相当。两者oracle性能总体相似,但在ranked性能上各有优劣:

3.3 生物聚合物预测

在FoldBench基准测试中,OF3p2的表现因模态而异:

OF3p2与Protenix-v1性能相近,两者在某些模态上互有优劣。

四、讨论

4.1 主要进展

OF3p2代表了开源生物分子结构预测领域的重要里程碑:

完整可复现性:

性能接近AF3:

多模态能力:

4.2 局限与挑战

置信度排序瓶颈:

特定模态性能差距:

计算资源需求:

4.3 与竞争模型的比较

Protenix-v1:

Boltz-2:

Chai-1:

五、结论

OpenFold3-preview2是目前最接近AlphaFold3性能的开源复现,为学术界提供了可训练、可验证的生物分子结构预测平台。其在蛋白质-小分子和蛋白质-RNA预测上的强劲表现,使其成为AI药物研发工具链中的有力候选。

然而,置信度排序问题仍是制约其实际应用效果的主要瓶颈。未来工作应聚焦于:

重要意义:OF3p2的发布标志着开源生物分子结构预测领域进入新阶段——不仅实现了性能平价,更建立了完整的技术栈,为社区的进一步创新和验证奠定了基础。

参考资料:
[1] OpenFold3-preview2 Technical Report (2025)
[2] Abramson, J., et al. "Accurate structure prediction of biomolecular interactions with AlphaFold 3." Nature (2024)
[3] Runs N' Poses benchmark dataset and evaluation protocol
[4] FoldBench: A comprehensive benchmark for biomolecular structure prediction

← 返回博客列表