RFdiffusion：当扩散模型遇见蛋白质设计

原文：Watson et al., Nature 2023
DOI：10.1038/s41586-023-06415-8

摘要

RFdiffusion 代表了蛋白质设计领域的重要技术转向——将扩散模型从图像生成领域引入到蛋白质结构生成。该方法通过对 RoseTTAFold 结构预测网络进行微调，使其成为蛋白质骨架的去噪生成模型。实验验证表明，该方法在无条件单体设计、蛋白质结合物设计、对称寡聚体设计等多个任务上均取得了显著进展，其中设计的流感血凝素结合物经冷冻电镜验证与设计模型几乎完全一致。

1. 背景：从结构预测到蛋白质设计

蛋白质设计是结构生物学的"逆问题"：结构预测是从序列推断结构，而蛋白质设计则是从功能需求出发，设计能够折叠成特定结构的序列。这一问题的复杂性在于，蛋白质序列空间极其庞大（20^n，n为氨基酸数量），而可折叠的功能性蛋白质仅占其中极小比例。

在深度学习时代，蛋白质结构预测取得了实质性进展。AlphaFold2 和 RoseTTAFold 等模型能够以接近实验精度预测蛋白质结构。这些模型蕴含了对蛋白质结构的深度理解，为蛋白质设计提供了新的可能性。

然而，将结构预测模型用于设计面临两个核心挑战：

多样性问题

传统方法（如 Rosetta）使用确定性搜索，对于给定的设计约束只能产生有限的解决方案。而蛋白质设计通常需要探索大量候选方案以找到满足多重约束的解。

约束满足问题

许多设计任务只需要部分结构信息（如功能位点的坐标），而整体折叠需要由算法推断。现有方法在处理这种"欠约束"问题时往往失效。

扩散模型（Diffusion Models）为解决这些问题提供了新的思路。这类模型在图像生成领域已经展现出强大的能力，能够从高斯噪声出发，通过迭代去噪生成高质量、多样化的图像。将扩散模型应用于蛋白质设计，理论上可以同时解决多样性和约束满足问题：随机噪声起点保证多样性，迭代去噪过程逐步建立结构约束。

2. 方法：RoseTTAFold 的扩散化改造

2.1 核心技术思路

RFdiffusion 的核心创新在于将 RoseTTAFold（RF）结构预测网络改造为扩散模型的去噪网络。这一改造基于以下观察：RoseTTAFold 具有高精度结构生成能力、旋转等变性和多层级条件机制，这些特性使其适合作为扩散模型的基础架构。

2.2 训练过程

数据准备：从蛋白质数据银行（PDB）采样结构，进行最多 200 步的加噪处理。
损失函数：采用均方误差（MSE）损失，而非 FAPE，以促进时间步之间的全局坐标框架连续性。
自条件机制：允许模型在时间步之间条件化于先前的预测，显著提升性能。
迁移学习：从预训练的 RoseTTAFold 权重开始微调，效果优于从头训练。

2.3 生成流程

初始化：随机初始化残基框架（Cα 坐标和 N-Cα-C 刚性取向）
迭代去噪：RFdiffusion 进行去噪预测，每个残基框架沿预测方向更新
序列设计：使用 ProteinMPNN 网络为生成的结构设计序列
验证：通过 AlphaFold2 或 ESMFold 单序列预测验证设计的可折叠性

3. 实验结果与性能分析

3.1 无条件单体设计

RFdiffusion 能够从零开始生成复杂的蛋白质结构，覆盖 α-螺旋、β-折叠、α/β 混合等多种拓扑结构。实验验证的设计显示出与设计一致的圆二色谱特征，且具有极高的热稳定性。

3.2 蛋白质结合物设计

在蛋白质结合物设计任务上，RFdiffusion 相比传统 Rosetta 方法实现了约两个数量级的成功率提升（19% vs ~0.1%）。

关键结果：

针对 5 个不同靶点，每个靶点测试少于 100 个设计，所有靶点均获得成功的结合物
多个设计显示出纳摩尔级亲和力（如 HA 和 IL-7Rα 结合物约 30 nM）
冷冻电镜验证：设计的流感血凝素结合物经冷冻电镜结构测定，与设计模型几乎完全一致

3.3 对称寡聚体与功能位点支架

RFdiffusion 支持对称性约束，能够设计 C3、C4、C5、C6 对称的寡聚体结构。应用案例包括 SARS-CoV-2 刺突蛋白结合物设计和金属结合蛋白设计，实验验证与设计模型高度一致。

4. 技术意义与影响

4.1 方法论贡献

架构复用：强大的结构预测架构可以直接用于生成任务
损失函数设计：MSE 损失相比 FAPE 更适合扩散模型的训练
自条件机制：时间步之间的信息传递对生成质量至关重要

4.2 对后续研究的影响

RFdiffusion 为后续蛋白质设计模型奠定了基础。Chai-2（2025）采用类似的扩散模型架构，在抗体设计任务上实现 16% 实验成功率，相比此前方法提升超过 100 倍。

4.3 局限性与待解决问题

计算成本：扩散模型需要多步迭代去噪，计算成本较高
序列-结构联合设计：RFdiffusion 主要关注骨架生成，序列设计依赖外部工具
实验验证规模：大规模实验验证的成本仍然较高

5. 结论

RFdiffusion 代表了蛋白质设计领域从"搜索"范式向"生成"范式的重要转变。通过将扩散模型引入蛋白质结构生成，该方法在多样性、约束满足能力和实验成功率等多个维度上实现了实质性进展。冷冻电镜对设计结合物结构的验证，标志着计算方法设计的蛋白质可以达到原子级精度。随着 Chai-2 等后续模型在特定任务上的进一步突破，基于扩散模型的蛋白质设计正在成为 AIDD 领域的重要技术路线。

参考资料

Watson, J.L., et al. (2023). De novo design of protein structure and function with RFdiffusion. Nature, 620, 1089-1100. https://doi.org/10.1038/s41586-023-06415-8

代码：https://github.com/RosettaCommons/RFdiffusion

← 返回博客列表