BoltzGen技術解讀：全原子生成模型驅動的通用結合物設計

原文：Stark et al., bioRxiv 2025
DOI：10.1101/2025.11.20.689494

摘要

BoltzGen是MIT、Valence Labs等機構聯合開發的開源全原子生成模型，用於設計蛋白質和多肽結合物。模型將設計與結構預測統一，在保持AlphaFold 3級別折疊性能的同時，實現跨模態（奈米抗體、蛋白質、肽、二硫鍵環肽）的結合物設計。在8個濕實驗驗證項目中，針對9個全新靶點（PDB中無>30%同源結合結構）的奈米抗體和蛋白質設計均實現66%的nM級結合物成功率。模型提供靈活的設計規範語言，支持共價鍵約束、結構約束和殘基身份約束。

1. 研究背景

1.1 從頭結合物設計的挑戰

從頭結合物設計具有自動化藥物發現的巨大潛力。該任務要求模型能夠理解靶點-結合物相互作用的三維結構特徵，並生成具有特定結合能力的新分子。這一挑戰涉及複雜的結構推理和廣闊的序列-結構空間探索。

1.2 現有方法的局限

現有技術存在以下關鍵局限：一是模態特異性，許多方法僅針對特定類別的生物分子（如奈米抗體或肽）進行優化；二是訓練數據相似性偏差，現有方法通常在訓練數據中有密切相關複合物的靶點上進行測試，而從頭設計的真正價值在於其向簡單靶點之外外推的能力；三是設計過程缺乏靈活控制，難以滿足實際發現活動中的多樣化需求。

1.3 統一設計與結構預測的需求

模型主要通過提供的示例來學習模擬物理規律，因此擴展方法的通用性有助於提升其在特定類別上的設計能力。將設計與結構預測統一，使模型能夠同時學習折疊物理和結合相互作用，從而增強結構推理能力。

2. 技術架構

2.1 全原子生成模型形式化

BoltzGen採用全原子生成模型，直接建模原子坐標而非簡化的殘基表示。這種表示方式使模型能夠捕捉精細的原子級相互作用，包括氫鍵、疏水相互作用和范德華力等。

2.2 架構組件

模型架構包含以下核心組件：

幾何表示：基於純幾何的殘基類型表示，支持設計任務和折疊任務的同步訓練
Trunk：處理輸入序列和結構信息的主幹網絡
去噪模組：擴散模型用於生成原子坐標

與先前設計模型不同，BoltzGen匹配最先進折疊模型的性能，實現了設計與預測的真正統一。

2.3 與結構預測的統一

關鍵創新在於將設計任務和折疊任務整合到單一模型中同時訓練。這種統一使模型能夠：

學習從序列到結構的映射（折疊任務）
學習從靶點結構到結合物序列-結構的映射（設計任務）
在兩個任務之間共享結構表示和物理知識

結果是模型既能準確預測給定序列的結構，又能為給定靶點設計新的結合物。

2.4 與Boltz-1/2的架構關係

BoltzGen建立在Boltz-1和Boltz-2的技術基礎之上，繼承了其trunk架構和擴散生成框架。主要區別在於：引入了幾何表示以實現殘基類型的靈活設計、擴展了生成能力從結構預測到de-novo設計、集成了設計規範語言以支持靈活約束。

3. 設計規範語言

BoltzGen提供靈活的設計規範語言，允許用戶根據具體應用需求約束設計過程。

3.1 共價鍵約束

支持指定設計中的共價鍵連接，如二硫鍵（兩個半胱氨酸之間的共價鍵）。這允許設計環化肽等具有增強穩定性的分子。

3.2 結構約束

包括部分結構約束（指定結合物的部分三維結構）、結合位點約束（指定靶點上期望的結合區域）、以及"不結合"約束（指定應避免相互作用的區域）。

3.3 殘基身份約束

允許固定特定位置的殘基類型或序列模式，如固定奈米抗體框架區域僅設計CDR環、或保留已知重要的功能殘基。

3.4 應用場景示例

奈米抗體設計：從4個默認支架中隨機選擇，固定框架區域，替換3個CDR區域為隨機長度的環
二硫鍵環肽設計：指定兩個半胱氨酸形成共價鍵，中間為設計殘基
無序蛋白結合：指定結合無序區域，避免與結構化區域相互作用

4. 濕實驗驗證

BoltzGen在8個獨立濕實驗驗證項目中進行了測試，涉及多個合作實驗室，每個實驗室選擇與其特定應用相關的靶點和輸出模態。

4.1 9個全新靶點的奈米抗體/蛋白質設計

實驗由Adaptyv Bio完成。選擇9個靶點，確保PDB中無>30%序列同源的結合結構。針對每個靶點生成60,000個奈米抗體和60,000個蛋白質（長度80-140），不指定結合位點。每個靶點實驗驗證15個設計，奈米抗體和蛋白質均實現66%的nM級結合物成功率（6/9靶點）。所有成功設計均通過人血清白蛋白（HSA）特異性篩選，無非特異性結合。

4.2 生物活性肽結合蛋白設計

實驗由UCSF完成。針對3種抗菌肽和細胞毒性肽（protegrin：富含二硫鍵的β-髮夾；melittin：膜結合時形成螺旋；indolicidin：polyproline II或兩親構象）。每個靶點測試6個設計，2個獲得nM親和力，1個獲得µM親和力，且能中和抗菌活性和溶血活性。

4.3 無序區域結合（NPM1）

實驗由MPI完成。NPM1-c突變體是急性髓系白血病的已知驅動因子。生成20,000個肽設計（長度40-80），利用結合位點條件化針對無序區域，避免與結構化β-折疊區域相互作用。測試前5個設計，1個在活細胞中可靠定位於核仁，提示成功結合NPM1。這是de-novo設計蛋白在活細胞中結合無序蛋白的體內證據。

4.4 特定位點肽設計（RagC）

實驗由IOCB Boston完成。RagC GTPase是細胞營養感應通路的核心組分。以RagC的一個相互作用表面為結合位點輸入，生成10,000個設計（長度5-20）。測試29個，發現7個結合物，最高親和力3.5 µM，第二高60 µM。

4.5 二硫鍵環肽（RagA:RagC）

實驗由IOCB Boston完成。針對RagA:RagC二聚體設計二硫鍵環化肽（長度10-18），指定相互作用表面為結合位點，兩個半胱氨酸共價鍵，中間6個設計殘基，兩側各1-5個設計殘基。生成50,000個設計，測試24個，發現14個結合物，其中8個解析親和力，最高80 µM，第二高164 µM。

4.6 病毒蛋白奈米抗體

實驗由UC Irvine完成。選擇兩個近期存入PDB的單體靶點：Penguinpox的cGAMP PDE（降解環二核苷酸抑制宿主STING信號）和Bordetella的FhaB（粘附蛋白）。每個靶點生成60,000個奈米抗體，各選擇7個進行酵母表面展示實驗。Penguinpox發現1個結合信號，Hemagglutinin發現7個結合信號（親和力至多為2 µM）。

4.7 小分子結合蛋白

實驗由UCSF完成。針對兩個小分子設計結合蛋白：rucaparib（生成10,000個設計，長度140-180）和羅丹明衍生物（生成20,000個設計）。Rucaparib測試6個，5個顯示結合，親和力50-150 µM。羅丹明衍生物測試4個，均顯示弱結合，親和力30-250 µM。相比之下，先前專家引導的專業方法設計了rucaparib的低nM結合物。

4.8 抗菌肽（GyrA）

實驗由MIT完成。針對細菌DNA旋轉酶A亞基（GyrA）設計抑制性肽，指定GyrA自相互作用表面為結合位點，生成長度10-50的肽。選擇1,808個設計進行生長抑制實驗，352個（19.5%）抑制大腸桿菌生長>4倍。將設計中最接近靶點的3個殘基突變為丙氨酸驗證結合機制，54個（3.0%）失去活性。

4.9 5個基準靶點實驗

實驗由Adaptyv Bio完成。針對PD-L1、TNFα、PDGFR、IL-7Rα和InsulinR設計結合物，這些靶點在訓練數據中有已知結合物。每個靶點生成30,000-60,000個設計，指定文獻中的結合位點。奈米抗體和蛋白質均實現80%的nM級結合物成功率（4/5靶點）。

5. 局限性與討論

5.1 親和力範圍

BoltzGen設計的結合物親和力主要在µM到nM範圍，尚未達到治療性抗體和奈米抗體常見的pM級別。例如，在rucaparib案例中，專家引導的專業方法實現了低nM結合物，而BoltzGen僅達到50-150 µM。這表明通用設計模型在親和力優化方面仍有提升空間。

5.2 表達成功率

論文未報告設計蛋白的表達成功率信息。表達失敗可能由多種原因導致（如錯誤折疊、疏水補丁導致聚集），這是體外驗證的關鍵瓶頸。更多表達數據有助於評估模型的實際可用性。

5.3 數據可用性

部分實驗數據因合作者要求暫時保密，論文表示將在進一步結果可用時更新。這種數據不完整性限制了獨立驗證和全面評估的可能性。

5.4 與專家引導方法的對比

rucaparib案例凸顯了通用模型與專家引導專業方法之間的差距。專業方法通過識別小分子上的特定化學基團實現低nM結合，而BoltzGen作為通用模型僅達到中等µM親和力。這表明在特定應用場景下，領域知識的整合仍具有重要價值。

5.5 全新靶點的定義

論文將"全新靶點"定義為PDB中無>30%序列同源的結合結構。然而，這並不保證靶點表面不存在適合高親和力結合的補丁。部分靶點可能根本不具備高親和力蛋白-蛋白或奈米抗體-蛋白結合的能力，66%的成功率在此背景下應謹慎解讀。

6. 結論

BoltzGen代表了從頭結合物設計領域的重要進展，首次在統一的全原子生成模型框架內實現了跨模態（奈米抗體、蛋白質、肽、環肽）的高成功率設計。模型在全新靶點上66%的nM級結合物成功率展示了其向訓練數據之外外推的能力。設計規範語言的靈活性使模型能夠適應多樣化的實際應用需求。

然而，模型在親和力範圍（未達到pM級別）、與專家引導方法的差距、以及部分實驗數據的不完整性方面存在局限。對於藥物發現應用，BoltzGen提供了一個強大的起點設計平台，但高親和力優化和可開發性改進仍需後續工程。

                未來發展方向
                整合親和力預測模型（如Boltz-2）以指導設計優化
擴展設計模態至抗體和小分子
建立更全面的表達和可開發性預測
與實驗驗證的更深集成以實現閉環設計

            

參考資料：
[1] Stark H, Faltings F, Choi MG, et al. BoltzGen: Toward Universal Binder Design. bioRxiv 2025. https://doi.org/10.1101/2025.11.20.689494

← 返回博客列表