OpenFold3技术评估: 开源AlphaFold3复现的性能进展与局限

原文：OpenFold3-preview2 Technical Report (2025)
机构：哥伦比亚大学、劳伦斯利弗莫尔国家实验室等

摘要

OpenFold3-preview2（OF3p2）是AlphaFold3（AF3）的最新开源复现版本，由哥伦比亚大学、劳伦斯利弗莫尔国家实验室等机构联合开发。该版本在训练数据、模型权重和推理代码方面完全开源，是目前唯一支持从头训练且性能接近AF3的学术复现。基准测试表明，OF3p2在蛋白质-小分子复合物预测上接近AF3性能，在生物聚合物多模态预测上与AF3和Protenix-v1相当。

一、背景

1.1 AlphaFold3的行业意义

2024年，Google DeepMind发布的AlphaFold3代表了生物分子结构预测领域的重大进展。与此前专注于蛋白质结构预测的AlphaFold2不同，AF3将预测范围扩展至包括蛋白质-配体、蛋白质-核酸、蛋白质-抗体等多种生物分子复合物，实现了单一模型对生物分子相互作用的统一建模。

AF3的重要性在于其潜在的应用价值：

在药物研发领域，准确的蛋白质-小分子复合物结构预测可显著加速先导化合物优化
在合成生物学领域，蛋白质-核酸相互作用预测有助于基因编辑工具的设计

然而，AF3并未开源训练代码和完整数据集，这在一定程度上限制了学术界的独立验证和进一步改进。

1.2 开源复现的必要性

开源复现对于科学研究的透明度和可重复性至关重要。尽管AF3提供了推理服务，但研究人员无法：

独立验证报告的性能指标
在特定领域数据上进行微调
理解模型的内部工作机制
针对特定应用场景进行优化

OpenFold项目自启动以来，其核心目标始终是构建一个与AF3性能平价且完全开源的生物分子结构预测系统。OpenFold3-preview2的发布标志着这一目标取得了实质性进展。

二、技术更新要点

2.1 数据集构建

OF3p2在数据集构建方面进行了显著改进：

单体蒸馏集：

采用Mgnify 2025_03版本数据库，选取聚类代表序列（聚类成员≥3）
对于约500万序列，使用标准OF3 MSA流程（JackHMMer搜索UniRef90、UniProt、Mgnify，HHblits搜索更新版BFD数据库）
对于额外1000万序列，采用ColabFold MSA流程（MMseqs2）
经Neff≥4.0过滤后，保留约800万序列

RNA蒸馏集：

基于RFAM v15.1（而非AF3使用的v14.9），选取聚类代表序列（聚类成员≥3）
使用OF3p预测结构，经平均PDE<2过滤后，保留约12.5万RNA结构

2.2 训练策略

OF3p2的总训练步数为155,000步，分为三个阶段：

初始阶段：131,500步
微调阶段1：8,000步
微调阶段2：15,500步

与AF3不同，OF3p2未执行第三阶段的微调，而是从初始训练开始即同步训练PAE（Predicted Aligned Error）置信度头。训练在256块NVIDIA H100 GPU上完成，各阶段在模型选择指标达到明显最大值时终止。

2.3 Bug修复

相较于OF3p，OF3p2修复了多项关键错误：

问题	影响	修复方式
模板模块mask错误	错误地将chain ID相乘而非断言一致性	修正mask逻辑
模板pipeline过滤缺失	未过滤高比例对齐未解析残基的模板结构	增加过滤条件
plDDT计算错误	15Å包含半径应用不当，导致评估原子对随预测质量变化	修正半径应用逻辑

2.4 已知问题

OF3p2训练使用的RNA蒸馏集在MI300A APU上通过rocBLASLt后端生成，事后发现该后端导致结构化学有效性下降。此问题可通过使用rocBLAS后端（NVIDIA GPU不受影响）解决。公开发布的RNA自蒸馏集已使用rocBLAS生成修正版本。

三、基准测试结果

3.1 评估方法

所有基准测试采用统一的推理流程：

MSA子采样至1,024条序列
提供结构模板作为输入
运行10次trunk recycle
每个MSA种子运行5次diffusion采样（共5个MSA种子）

该流程遵循AF3补充材料中的描述。为确保公平比较，仅报告所有模型均成功预测的严格公共子集结果。

3.2 蛋白质-小分子复合物预测

在Runs N' Poses（RnP）基准测试中，OF3p2表现出以下特征：

整体性能：

与Protenix-v1.0在大多数相似度区间性能相近
与AF3的差距持续缩小
AF3在整体性能上仍保持领先

置信度排序问题：OF3p2的ranked性能与oracle性能差距大于AF3，表明其底层生成器能够产生高质量样本，但在基于置信度的排序环节存在不足。

与Boltz-2对比：在调整至Boltz-2训练截止日期的RnP子集上，OF3p2与Boltz-2性能相当。两者oracle性能总体相似，但在ranked性能上各有优劣：

Boltz-2在高相似度区间（SuCOS-pocket）略占优势
OF3p2在低相似度区间[0,20]和[40,50]表现较好

3.3 生物聚合物预测

在FoldBench基准测试中，OF3p2的表现因模态而异：

蛋白质单体：与AF3相当
蛋白质-RNA相互作用：与AF3相当或略优
核酸单体、蛋白质-蛋白质相互作用、蛋白质-DNA相互作用：略逊于AF3，但差异大多在统计变异范围内

OF3p2与Protenix-v1性能相近，两者在某些模态上互有优劣。

四、讨论

4.1 主要进展

OF3p2代表了开源生物分子结构预测领域的重要里程碑：

完整可复现性：

作为目前唯一功能完整的AF3开源复现
提供了训练代码、模型权重和全部数据集
支持从头训练
对于学术研究的可重复性和透明度具有重要意义

性能接近AF3：

在多个基准测试中，OF3p2的性能已接近AF3
在特定模态（如蛋白质-RNA相互作用）上甚至达到或超过AF3水平

多模态能力：

继承了AF3的统一建模框架
能够处理蛋白质、核酸、小分子等多种生物分子类型及其复合物

4.2 局限与挑战

置信度排序瓶颈：

ranked性能与oracle性能的差距表明，OF3p2在样本质量评估方面仍有改进空间
这一问题的根源可能在于置信度头的训练策略——OF3p2从初始阶段即训练PAE头，而AF3采用分阶段微调策略

特定模态性能差距：

在核酸单体和某些蛋白质-蛋白质相互作用预测上，OF3p2与AF3仍存在可测量的差距
这可能与训练数据分布、蒸馏集质量或特定模态的架构细节有关

计算资源需求：

256块H100 GPU的训练配置对于大多数学术机构而言仍属高昂成本
限制了独立验证和进一步实验的可及性

4.3 与竞争模型的比较

Protenix-v1：

两者性能相近，在FoldBench和RnP基准测试中互有优劣
Protenix由百度开发，同样基于AF3架构，但训练细节和数据集构成有所不同

Boltz-2：

在蛋白质-小分子预测上，OF3p2与Boltz-2在特定相似度区间各有优势
Boltz-2可访问更大的训练数据集，这可能是其在某些高相似度区间表现更好的原因

Chai-1：

作为另一开源竞争者，Chai-1在某些模态上表现优异
但OF3p2在整体多模态能力上更为均衡

五、结论

OpenFold3-preview2是目前最接近AlphaFold3性能的开源复现，为学术界提供了可训练、可验证的生物分子结构预测平台。其在蛋白质-小分子和蛋白质-RNA预测上的强劲表现，使其成为AI药物研发工具链中的有力候选。

然而，置信度排序问题仍是制约其实际应用效果的主要瓶颈。未来工作应聚焦于：

改进置信度头训练策略
优化特定模态（尤其是核酸相关预测）的性能
探索更高效的训练方法以降低计算门槛

重要意义：OF3p2的发布标志着开源生物分子结构预测领域进入新阶段——不仅实现了性能平价，更建立了完整的技术栈，为社区的进一步创新和验证奠定了基础。

参考资料：
[1] OpenFold3-preview2 Technical Report (2025)
[2] Abramson, J., et al. "Accurate structure prediction of biomolecular interactions with AlphaFold 3." Nature (2024)
[3] Runs N' Poses benchmark dataset and evaluation protocol
[4] FoldBench: A comprehensive benchmark for biomolecular structure prediction

← 返回博客列表