BoltzGen技术解读：全原子生成模型驱动的通用结合物设计

原文：Stark et al., bioRxiv 2025
DOI：10.1101/2025.11.20.689494

摘要

BoltzGen是MIT、Valence Labs等机构联合开发的开源全原子生成模型，用于设计蛋白质和多肽结合物。模型将设计与结构预测统一，在保持AlphaFold 3级别折叠性能的同时，实现跨模态（纳米抗体、蛋白质、肽、二硫键环肽）的结合物设计。在8个湿实验验证项目中，针对9个全新靶点（PDB中无>30%同源结合结构）的纳米抗体和蛋白质设计均实现66%的nM级结合物成功率。模型提供灵活的设计规范语言，支持共价键约束、结构约束和残基身份约束。

1. 研究背景

1.1 从头结合物设计的挑战

从头结合物设计具有自动化药物发现的巨大潜力。该任务要求模型能够理解靶点-结合物相互作用的三维结构特征，并生成具有特定结合能力的新分子。这一挑战涉及复杂的结构推理和广阔的序列-结构空间探索。

1.2 现有方法的局限

现有技术存在以下关键局限：一是模态特异性，许多方法仅针对特定类别的生物分子（如纳米抗体或肽）进行优化；二是训练数据相似性偏差，现有方法通常在训练数据中有密切相关复合物的靶点上进行测试，而从头设计的真正价值在于其向简单靶点之外外推的能力；三是设计过程缺乏灵活控制，难以满足实际发现活动中的多样化需求。

1.3 统一设计与结构预测的需求

模型主要通过提供的示例来学习模拟物理规律，因此扩展方法的通用性有助于提升其在特定类别上的设计能力。将设计与结构预测统一，使模型能够同时学习折叠物理和结合相互作用，从而增强结构推理能力。

2. 技术架构

2.1 全原子生成模型形式化

BoltzGen采用全原子生成模型，直接建模原子坐标而非简化的残基表示。这种表示方式使模型能够捕捉精细的原子级相互作用，包括氢键、疏水相互作用和范德华力等。

2.2 架构组件

模型架构包含以下核心组件：

几何表示：基于纯几何的残基类型表示，支持设计任务和折叠任务的同步训练
Trunk：处理输入序列和结构信息的主干网络
去噪模块：扩散模型用于生成原子坐标

与先前设计模型不同，BoltzGen匹配最先进折叠模型的性能，实现了设计与预测的真正统一。

2.3 与结构预测的统一

关键创新在于将设计任务和折叠任务整合到单一模型中同时训练。这种统一使模型能够：

学习从序列到结构的映射（折叠任务）
学习从靶点结构到结合物序列-结构的映射（设计任务）
在两个任务之间共享结构表示和物理知识

结果是模型既能准确预测给定序列的结构，又能为给定靶点设计新的结合物。

2.4 与Boltz-1/2的架构关系

BoltzGen建立在Boltz-1和Boltz-2的技术基础之上，继承了其trunk架构和扩散生成框架。主要区别在于：引入了几何表示以实现残基类型的灵活设计、扩展了生成能力从结构预测到de-novo设计、集成了设计规范语言以支持灵活约束。

3. 设计规范语言

BoltzGen提供灵活的设计规范语言，允许用户根据具体应用需求约束设计过程。

3.1 共价键约束

支持指定设计中的共价键连接，如二硫键（两个半胱氨酸之间的共价键）。这允许设计环化肽等具有增强稳定性的分子。

3.2 结构约束

包括部分结构约束（指定结合物的部分三维结构）、结合位点约束（指定靶点上期望的结合区域）、以及"不结合"约束（指定应避免相互作用的区域）。

3.3 残基身份约束

允许固定特定位置的残基类型或序列模式，如固定纳米抗体框架区域仅设计CDR环、或保留已知重要的功能残基。

3.4 应用场景示例

纳米抗体设计：从4个默认支架中随机选择，固定框架区域，替换3个CDR区域为随机长度的环
二硫键环肽设计：指定两个半胱氨酸形成共价键，中间为设计残基
无序蛋白结合：指定结合无序区域，避免与结构化区域相互作用

4. 湿实验验证

BoltzGen在8个独立湿实验验证项目中进行了测试，涉及多个合作实验室，每个实验室选择与其特定应用相关的靶点和输出模态。

4.1 9个全新靶点的纳米抗体/蛋白质设计

实验由Adaptyv Bio完成。选择9个靶点，确保PDB中无>30%序列同源的结合结构。针对每个靶点生成60,000个纳米抗体和60,000个蛋白质（长度80-140），不指定结合位点。每个靶点实验验证15个设计，纳米抗体和蛋白质均实现66%的nM级结合物成功率（6/9靶点）。所有成功设计均通过人血清白蛋白（HSA）特异性筛选，无非特异性结合。

4.2 生物活性肽结合蛋白设计

实验由UCSF完成。针对3种抗菌肽和细胞毒性肽（protegrin：富含二硫键的β-发夹；melittin：膜结合时形成螺旋；indolicidin：polyproline II或两亲构象）。每个靶点测试6个设计，2个获得nM亲和力，1个获得µM亲和力，且能中和抗菌活性和溶血活性。

4.3 无序区域结合（NPM1）

实验由MPI完成。NPM1-c突变体是急性髓系白血病的已知驱动因子。生成20,000个肽设计（长度40-80），利用结合位点条件化针对无序区域，避免与结构化β-折叠区域相互作用。测试前5个设计，1个在活细胞中可靠定位于核仁，提示成功结合NPM1。这是de-novo设计蛋白在活细胞中结合无序蛋白的体内证据。

4.4 特定位点肽设计（RagC）

实验由IOCB Boston完成。RagC GTPase是细胞营养感应通路的核心组分。以RagC的一个相互作用表面为结合位点输入，生成10,000个设计（长度5-20）。测试29个，发现7个结合物，最高亲和力3.5 µM，第二高60 µM。

4.5 二硫键环肽（RagA:RagC）

实验由IOCB Boston完成。针对RagA:RagC二聚体设计二硫键环化肽（长度10-18），指定相互作用表面为结合位点，两个半胱氨酸共价键，中间6个设计残基，两侧各1-5个设计残基。生成50,000个设计，测试24个，发现14个结合物，其中8个解析亲和力，最高80 µM，第二高164 µM。

4.6 病毒蛋白纳米抗体

实验由UC Irvine完成。选择两个近期存入PDB的单体靶点：Penguinpox的cGAMP PDE（降解环二核苷酸抑制宿主STING信号）和Bordetella的FhaB（粘附蛋白）。每个靶点生成60,000个纳米抗体，各选择7个进行酵母表面展示实验。Penguinpox发现1个结合信号，Hemagglutinin发现7个结合信号（亲和力至多为2 µM）。

4.7 小分子结合蛋白

实验由UCSF完成。针对两个小分子设计结合蛋白：rucaparib（生成10,000个设计，长度140-180）和罗丹明衍生物（生成20,000个设计）。Rucaparib测试6个，5个显示结合，亲和力50-150 µM。罗丹明衍生物测试4个，均显示弱结合，亲和力30-250 µM。相比之下，先前专家引导的专业方法设计了rucaparib的低nM结合物。

4.8 抗菌肽（GyrA）

实验由MIT完成。针对细菌DNA旋转酶A亚基（GyrA）设计抑制性肽，指定GyrA自相互作用表面为结合位点，生成长度10-50的肽。选择1,808个设计进行生长抑制实验，352个（19.5%）抑制大肠杆菌生长>4倍。将设计中最接近靶点的3个残基突变为丙氨酸验证结合机制，54个（3.0%）失去活性。

4.9 5个基准靶点实验

实验由Adaptyv Bio完成。针对PD-L1、TNFα、PDGFR、IL-7Rα和InsulinR设计结合物，这些靶点在训练数据中有已知结合物。每个靶点生成30,000-60,000个设计，指定文献中的结合位点。纳米抗体和蛋白质均实现80%的nM级结合物成功率（4/5靶点）。

5. 局限性与讨论

5.1 亲和力范围

BoltzGen设计的结合物亲和力主要在µM到nM范围，尚未达到治疗性抗体和纳米抗体常见的pM级别。例如，在rucaparib案例中，专家引导的专业方法实现了低nM结合物，而BoltzGen仅达到50-150 µM。这表明通用设计模型在亲和力优化方面仍有提升空间。

5.2 表达成功率

论文未报告设计蛋白的表达成功率信息。表达失败可能由多种原因导致（如错误折叠、疏水补丁导致聚集），这是体外验证的关键瓶颈。更多表达数据有助于评估模型的实际可用性。

5.3 数据可用性

部分实验数据因合作者要求暂时保密，论文表示将在进一步结果可用时更新。这种数据不完整性限制了独立验证和全面评估的可能性。

5.4 与专家引导方法的对比

rucaparib案例凸显了通用模型与专家引导专业方法之间的差距。专业方法通过识别小分子上的特定化学基团实现低nM结合，而BoltzGen作为通用模型仅达到中等µM亲和力。这表明在特定应用场景下，领域知识的整合仍具有重要价值。

5.5 全新靶点的定义

论文将"全新靶点"定义为PDB中无>30%序列同源的结合结构。然而，这并不保证靶点表面不存在适合高亲和力结合的补丁。部分靶点可能根本不具备高亲和力蛋白-蛋白或纳米抗体-蛋白结合的能力，66%的成功率在此背景下应谨慎解读。

6. 结论

BoltzGen代表了从头结合物设计领域的重要进展，首次在统一的全原子生成模型框架内实现了跨模态（纳米抗体、蛋白质、肽、环肽）的高成功率设计。模型在全新靶点上66%的nM级结合物成功率展示了其向训练数据之外外推的能力。设计规范语言的灵活性使模型能够适应多样化的实际应用需求。

然而，模型在亲和力范围（未达到pM级别）、与专家引导方法的差距、以及部分实验数据的不完整性方面存在局限。对于药物发现应用，BoltzGen提供了一个强大的起点设计平台，但高亲和力优化和可开发性改进仍需后续工程。

                未来发展方向
                整合亲和力预测模型（如Boltz-2）以指导设计优化
扩展设计模态至抗体和小分子
建立更全面的表达和可开发性预测
与实验验证的更深集成以实现闭环设计

            

参考资料：
[1] Stark H, Faltings F, Choi MG, et al. BoltzGen: Toward Universal Binder Design. bioRxiv 2025. https://doi.org/10.1101/2025.11.20.689494

← 返回博客列表