RFdiffusion：當擴散模型遇見蛋白質設計

原文：Watson et al., Nature 2023
DOI：10.1038/s41586-023-06415-8

摘要

RFdiffusion 代表了蛋白質設計領域的重要技術轉向——將擴散模型從圖像生成領域引入到蛋白質結構生成。該方法通過對 RoseTTAFold 結構預測網絡進行微調，使其成為蛋白質骨架的去噪生成模型。實驗驗證表明，該方法在無條件單體設計、蛋白質結合物設計、對稱寡聚體設計等多個任務上均取得了顯著進展，其中設計的流感血凝素結合物經冷凍電鏡驗證與設計模型幾乎完全一致。

1. 背景：從結構預測到蛋白質設計

蛋白質設計是結構生物學的"逆問題"：結構預測是從序列推斷結構，而蛋白質設計則是從功能需求出發，設計能夠折疊成特定結構的序列。這一問題的複雜性在於，蛋白質序列空間極其龐大（20^n，n為氨基酸數量），而可折疊的功能性蛋白質僅占其中極小比例。

在深度學習時代，蛋白質結構預測取得了實質性進展。AlphaFold2 和 RoseTTAFold 等模型能夠以接近實驗精度預測蛋白質結構。這些模型蘊含了對蛋白質結構的深度理解，為蛋白質設計提供了新的可能性。

然而，將結構預測模型用於設計面臨兩個核心挑戰：

多樣性問題

傳統方法（如 Rosetta）使用確定性搜索，對於給定的設計約束只能產生有限的解決方案。而蛋白質設計通常需要探索大量候選方案以找到滿足多重約束的解。

約束滿足問題

許多設計任務只需要部分結構信息（如功能位點的坐標），而整體折疊需要由算法推斷。現有方法在處理這種"欠約束"問題時往往失效。

擴散模型（Diffusion Models）為解決這些問題提供了新的思路。這類模型在圖像生成領域已經展現出強大的能力，能夠從高斯噪聲出發，通過迭代去噪生成高質量、多樣化的圖像。將擴散模型應用於蛋白質設計，理論上可以同時解決多樣性和約束滿足問題：隨機噪聲起點保證多樣性，迭代去噪過程逐步建立結構約束。

2. 方法：RoseTTAFold 的擴散化改造

2.1 核心技術思路

RFdiffusion 的核心創新在於將 RoseTTAFold（RF）結構預測網絡改造為擴散模型的去噪網絡。這一改造基於以下觀察：RoseTTAFold 具有高精度結構生成能力、旋轉等變性和多層級條件機制，這些特性使其適合作為擴散模型的基礎架構。

2.2 訓練過程

數據準備：從蛋白質數據銀行（PDB）採樣結構，進行最多 200 步的加噪處理。
損失函數：採用均方誤差（MSE）損失，而非 FAPE，以促進時間步之間的全局坐標框架連續性。
自條件機制：允許模型在時間步之間條件化於先前的預測，顯著提升性能。
遷移學習：從預訓練的 RoseTTAFold 權重開始微調，效果優於從頭訓練。

2.3 生成流程

初始化：隨機初始化殘基框架（Cα 坐標和 N-Cα-C 剛性取向）
迭代去噪：RFdiffusion 進行去噪預測，每個殘基框架沿預測方向更新
序列設計：使用 ProteinMPNN 網絡為生成的結構設計序列
驗證：通過 AlphaFold2 或 ESMFold 單序列預測驗證設計的可折疊性

3. 實驗結果與性能分析

3.1 無條件單體設計

RFdiffusion 能夠從零開始生成複雜的蛋白質結構，覆蓋 α-螺旋、β-折疊、α/β 混合等多種拓撲結構。實驗驗證的設計顯示出與設計一致的圓二色譜特徵，且具有極高的熱穩定性。

3.2 蛋白質結合物設計

在蛋白質結合物設計任務上，RFdiffusion 相比傳統 Rosetta 方法實現了約兩個數量級的成功率提升（19% vs ~0.1%）。

關鍵結果：

針對 5 個不同靶點，每個靶點測試少於 100 個設計，所有靶點均獲得成功的結合物
多個設計顯示出納摩爾級親和力（如 HA 和 IL-7Rα 結合物約 30 nM）
冷凍電鏡驗證：設計的流感血凝素結合物經冷凍電鏡結構測定，與設計模型幾乎完全一致

3.3 對稱寡聚體與功能位點支架

RFdiffusion 支持對稱性約束，能夠設計 C3、C4、C5、C6 對稱的寡聚體結構。應用案例包括 SARS-CoV-2 刺突蛋白結合物設計和金屬結合蛋白設計，實驗驗證與設計模型高度一致。

4. 技術意義與影響

4.1 方法論貢獻

架構復用：強大的結構預測架構可以直接用於生成任務
損失函數設計：MSE 損失相比 FAPE 更適合擴散模型的訓練
自條件機制：時間步之間的信息傳遞對生成質量至關重要

4.2 對後續研究的影響

RFdiffusion 為後續蛋白質設計模型奠定了基礎。Chai-2（2025）採用類似的擴散模型架構，在抗體設計任務上實現 16% 實驗成功率，相比此前方法提升超過 100 倍。

4.3 局限性與待解決問題

計算成本：擴散模型需要多步迭代去噪，計算成本較高
序列-結構聯合設計：RFdiffusion 主要關注骨架生成，序列設計依賴外部工具
實驗驗證規模：大規模實驗驗證的成本仍然較高

5. 結論

RFdiffusion 代表了蛋白質設計領域從"搜索"範式向"生成"範式的重要轉變。通過將擴散模型引入蛋白質結構生成，該方法在多樣性、約束滿足能力和實驗成功率等多個維度上實現了實質性進展。冷凍電鏡對設計結合物結構的驗證，標誌著計算方法設計的蛋白質可以達到原子級精度。隨著 Chai-2 等後續模型在特定任務上的進一步突破，基於擴散模型的蛋白質設計正在成為 AIDD 領域的重要技術路線。

參考資料

Watson, J.L., et al. (2023). De novo design of protein structure and function with RFdiffusion. Nature, 620, 1089-1100. https://doi.org/10.1038/s41586-023-06415-8

代碼：https://github.com/RosettaCommons/RFdiffusion

← 返回博客列表