原文:Stark et al., bioRxiv 2025
DOI:10.1101/2025.11.20.689494

摘要

BoltzGen是MIT、Valence Labs等機構聯合開發的開源全原子生成模型,用於設計蛋白質和多肽結合物。模型將設計與結構預測統一,在保持AlphaFold 3級別折疊性能的同時,實現跨模態(奈米抗體、蛋白質、肽、二硫鍵環肽)的結合物設計。在8個濕實驗驗證項目中,針對9個全新靶點(PDB中無>30%同源結合結構)的奈米抗體和蛋白質設計均實現66%的nM級結合物成功率。模型提供靈活的設計規範語言,支持共價鍵約束、結構約束和殘基身份約束。

1. 研究背景

1.1 從頭結合物設計的挑戰

從頭結合物設計具有自動化藥物發現的巨大潛力。該任務要求模型能夠理解靶點-結合物相互作用的三維結構特徵,並生成具有特定結合能力的新分子。這一挑戰涉及複雜的結構推理和廣闊的序列-結構空間探索。

1.2 現有方法的局限

現有技術存在以下關鍵局限:一是模態特異性,許多方法僅針對特定類別的生物分子(如奈米抗體或肽)進行優化;二是訓練數據相似性偏差,現有方法通常在訓練數據中有密切相關複合物的靶點上進行測試,而從頭設計的真正價值在於其向簡單靶點之外外推的能力;三是設計過程缺乏靈活控制,難以滿足實際發現活動中的多樣化需求。

1.3 統一設計與結構預測的需求

模型主要通過提供的示例來學習模擬物理規律,因此擴展方法的通用性有助於提升其在特定類別上的設計能力。將設計與結構預測統一,使模型能夠同時學習折疊物理和結合相互作用,從而增強結構推理能力。

2. 技術架構

2.1 全原子生成模型形式化

BoltzGen採用全原子生成模型,直接建模原子坐標而非簡化的殘基表示。這種表示方式使模型能夠捕捉精細的原子級相互作用,包括氫鍵、疏水相互作用和范德華力等。

2.2 架構組件

模型架構包含以下核心組件:

與先前設計模型不同,BoltzGen匹配最先進折疊模型的性能,實現了設計與預測的真正統一。

2.3 與結構預測的統一

關鍵創新在於將設計任務和折疊任務整合到單一模型中同時訓練。這種統一使模型能夠:

結果是模型既能準確預測給定序列的結構,又能為給定靶點設計新的結合物。

2.4 與Boltz-1/2的架構關係

BoltzGen建立在Boltz-1和Boltz-2的技術基礎之上,繼承了其trunk架構和擴散生成框架。主要區別在於:引入了幾何表示以實現殘基類型的靈活設計、擴展了生成能力從結構預測到de-novo設計、集成了設計規範語言以支持靈活約束。

3. 設計規範語言

BoltzGen提供靈活的設計規範語言,允許用戶根據具體應用需求約束設計過程。

3.1 共價鍵約束

支持指定設計中的共價鍵連接,如二硫鍵(兩個半胱氨酸之間的共價鍵)。這允許設計環化肽等具有增強穩定性的分子。

3.2 結構約束

包括部分結構約束(指定結合物的部分三維結構)、結合位點約束(指定靶點上期望的結合區域)、以及"不結合"約束(指定應避免相互作用的區域)。

3.3 殘基身份約束

允許固定特定位置的殘基類型或序列模式,如固定奈米抗體框架區域僅設計CDR環、或保留已知重要的功能殘基。

3.4 應用場景示例

4. 濕實驗驗證

BoltzGen在8個獨立濕實驗驗證項目中進行了測試,涉及多個合作實驗室,每個實驗室選擇與其特定應用相關的靶點和輸出模態。

4.1 9個全新靶點的奈米抗體/蛋白質設計

實驗由Adaptyv Bio完成。選擇9個靶點,確保PDB中無>30%序列同源的結合結構。針對每個靶點生成60,000個奈米抗體和60,000個蛋白質(長度80-140),不指定結合位點。每個靶點實驗驗證15個設計,奈米抗體和蛋白質均實現66%的nM級結合物成功率(6/9靶點)。所有成功設計均通過人血清白蛋白(HSA)特異性篩選,無非特異性結合。

4.2 生物活性肽結合蛋白設計

實驗由UCSF完成。針對3種抗菌肽和細胞毒性肽(protegrin:富含二硫鍵的β-髮夾;melittin:膜結合時形成螺旋;indolicidin:polyproline II或兩親構象)。每個靶點測試6個設計,2個獲得nM親和力,1個獲得µM親和力,且能中和抗菌活性和溶血活性。

4.3 無序區域結合(NPM1)

實驗由MPI完成。NPM1-c突變體是急性髓系白血病的已知驅動因子。生成20,000個肽設計(長度40-80),利用結合位點條件化針對無序區域,避免與結構化β-折疊區域相互作用。測試前5個設計,1個在活細胞中可靠定位於核仁,提示成功結合NPM1。這是de-novo設計蛋白在活細胞中結合無序蛋白的體內證據。

4.4 特定位點肽設計(RagC)

實驗由IOCB Boston完成。RagC GTPase是細胞營養感應通路的核心組分。以RagC的一個相互作用表面為結合位點輸入,生成10,000個設計(長度5-20)。測試29個,發現7個結合物,最高親和力3.5 µM,第二高60 µM。

4.5 二硫鍵環肽(RagA:RagC)

實驗由IOCB Boston完成。針對RagA:RagC二聚體設計二硫鍵環化肽(長度10-18),指定相互作用表面為結合位點,兩個半胱氨酸共價鍵,中間6個設計殘基,兩側各1-5個設計殘基。生成50,000個設計,測試24個,發現14個結合物,其中8個解析親和力,最高80 µM,第二高164 µM。

4.6 病毒蛋白奈米抗體

實驗由UC Irvine完成。選擇兩個近期存入PDB的單體靶點:Penguinpox的cGAMP PDE(降解環二核苷酸抑制宿主STING信號)和Bordetella的FhaB(粘附蛋白)。每個靶點生成60,000個奈米抗體,各選擇7個進行酵母表面展示實驗。Penguinpox發現1個結合信號,Hemagglutinin發現7個結合信號(親和力至多為2 µM)。

4.7 小分子結合蛋白

實驗由UCSF完成。針對兩個小分子設計結合蛋白:rucaparib(生成10,000個設計,長度140-180)和羅丹明衍生物(生成20,000個設計)。Rucaparib測試6個,5個顯示結合,親和力50-150 µM。羅丹明衍生物測試4個,均顯示弱結合,親和力30-250 µM。相比之下,先前專家引導的專業方法設計了rucaparib的低nM結合物。

4.8 抗菌肽(GyrA)

實驗由MIT完成。針對細菌DNA旋轉酶A亞基(GyrA)設計抑制性肽,指定GyrA自相互作用表面為結合位點,生成長度10-50的肽。選擇1,808個設計進行生長抑制實驗,352個(19.5%)抑制大腸桿菌生長>4倍。將設計中最接近靶點的3個殘基突變為丙氨酸驗證結合機制,54個(3.0%)失去活性。

4.9 5個基準靶點實驗

實驗由Adaptyv Bio完成。針對PD-L1、TNFα、PDGFR、IL-7Rα和InsulinR設計結合物,這些靶點在訓練數據中有已知結合物。每個靶點生成30,000-60,000個設計,指定文獻中的結合位點。奈米抗體和蛋白質均實現80%的nM級結合物成功率(4/5靶點)。

5. 局限性與討論

5.1 親和力範圍

BoltzGen設計的結合物親和力主要在µM到nM範圍,尚未達到治療性抗體和奈米抗體常見的pM級別。例如,在rucaparib案例中,專家引導的專業方法實現了低nM結合物,而BoltzGen僅達到50-150 µM。這表明通用設計模型在親和力優化方面仍有提升空間。

5.2 表達成功率

論文未報告設計蛋白的表達成功率信息。表達失敗可能由多種原因導致(如錯誤折疊、疏水補丁導致聚集),這是體外驗證的關鍵瓶頸。更多表達數據有助於評估模型的實際可用性。

5.3 數據可用性

部分實驗數據因合作者要求暫時保密,論文表示將在進一步結果可用時更新。這種數據不完整性限制了獨立驗證和全面評估的可能性。

5.4 與專家引導方法的對比

rucaparib案例凸顯了通用模型與專家引導專業方法之間的差距。專業方法通過識別小分子上的特定化學基團實現低nM結合,而BoltzGen作為通用模型僅達到中等µM親和力。這表明在特定應用場景下,領域知識的整合仍具有重要價值。

5.5 全新靶點的定義

論文將"全新靶點"定義為PDB中無>30%序列同源的結合結構。然而,這並不保證靶點表面不存在適合高親和力結合的補丁。部分靶點可能根本不具備高親和力蛋白-蛋白或奈米抗體-蛋白結合的能力,66%的成功率在此背景下應謹慎解讀。

6. 結論

BoltzGen代表了從頭結合物設計領域的重要進展,首次在統一的全原子生成模型框架內實現了跨模態(奈米抗體、蛋白質、肽、環肽)的高成功率設計。模型在全新靶點上66%的nM級結合物成功率展示了其向訓練數據之外外推的能力。設計規範語言的靈活性使模型能夠適應多樣化的實際應用需求。

然而,模型在親和力範圍(未達到pM級別)、與專家引導方法的差距、以及部分實驗數據的不完整性方面存在局限。對於藥物發現應用,BoltzGen提供了一個強大的起點設計平台,但高親和力優化和可開發性改進仍需後續工程。

未來發展方向

  • 整合親和力預測模型(如Boltz-2)以指導設計優化
  • 擴展設計模態至抗體和小分子
  • 建立更全面的表達和可開發性預測
  • 與實驗驗證的更深集成以實現閉環設計

參考資料:
[1] Stark H, Faltings F, Choi MG, et al. BoltzGen: Toward Universal Binder Design. bioRxiv 2025. https://doi.org/10.1101/2025.11.20.689494

← 返回博客列表