原文:Stark et al., bioRxiv 2025
DOI:10.1101/2025.11.20.689494

摘要

BoltzGen是MIT、Valence Labs等机构联合开发的开源全原子生成模型,用于设计蛋白质和多肽结合物。模型将设计与结构预测统一,在保持AlphaFold 3级别折叠性能的同时,实现跨模态(纳米抗体、蛋白质、肽、二硫键环肽)的结合物设计。在8个湿实验验证项目中,针对9个全新靶点(PDB中无>30%同源结合结构)的纳米抗体和蛋白质设计均实现66%的nM级结合物成功率。模型提供灵活的设计规范语言,支持共价键约束、结构约束和残基身份约束。

1. 研究背景

1.1 从头结合物设计的挑战

从头结合物设计具有自动化药物发现的巨大潜力。该任务要求模型能够理解靶点-结合物相互作用的三维结构特征,并生成具有特定结合能力的新分子。这一挑战涉及复杂的结构推理和广阔的序列-结构空间探索。

1.2 现有方法的局限

现有技术存在以下关键局限:一是模态特异性,许多方法仅针对特定类别的生物分子(如纳米抗体或肽)进行优化;二是训练数据相似性偏差,现有方法通常在训练数据中有密切相关复合物的靶点上进行测试,而从头设计的真正价值在于其向简单靶点之外外推的能力;三是设计过程缺乏灵活控制,难以满足实际发现活动中的多样化需求。

1.3 统一设计与结构预测的需求

模型主要通过提供的示例来学习模拟物理规律,因此扩展方法的通用性有助于提升其在特定类别上的设计能力。将设计与结构预测统一,使模型能够同时学习折叠物理和结合相互作用,从而增强结构推理能力。

2. 技术架构

2.1 全原子生成模型形式化

BoltzGen采用全原子生成模型,直接建模原子坐标而非简化的残基表示。这种表示方式使模型能够捕捉精细的原子级相互作用,包括氢键、疏水相互作用和范德华力等。

2.2 架构组件

模型架构包含以下核心组件:

与先前设计模型不同,BoltzGen匹配最先进折叠模型的性能,实现了设计与预测的真正统一。

2.3 与结构预测的统一

关键创新在于将设计任务和折叠任务整合到单一模型中同时训练。这种统一使模型能够:

结果是模型既能准确预测给定序列的结构,又能为给定靶点设计新的结合物。

2.4 与Boltz-1/2的架构关系

BoltzGen建立在Boltz-1和Boltz-2的技术基础之上,继承了其trunk架构和扩散生成框架。主要区别在于:引入了几何表示以实现残基类型的灵活设计、扩展了生成能力从结构预测到de-novo设计、集成了设计规范语言以支持灵活约束。

3. 设计规范语言

BoltzGen提供灵活的设计规范语言,允许用户根据具体应用需求约束设计过程。

3.1 共价键约束

支持指定设计中的共价键连接,如二硫键(两个半胱氨酸之间的共价键)。这允许设计环化肽等具有增强稳定性的分子。

3.2 结构约束

包括部分结构约束(指定结合物的部分三维结构)、结合位点约束(指定靶点上期望的结合区域)、以及"不结合"约束(指定应避免相互作用的区域)。

3.3 残基身份约束

允许固定特定位置的残基类型或序列模式,如固定纳米抗体框架区域仅设计CDR环、或保留已知重要的功能残基。

3.4 应用场景示例

4. 湿实验验证

BoltzGen在8个独立湿实验验证项目中进行了测试,涉及多个合作实验室,每个实验室选择与其特定应用相关的靶点和输出模态。

4.1 9个全新靶点的纳米抗体/蛋白质设计

实验由Adaptyv Bio完成。选择9个靶点,确保PDB中无>30%序列同源的结合结构。针对每个靶点生成60,000个纳米抗体和60,000个蛋白质(长度80-140),不指定结合位点。每个靶点实验验证15个设计,纳米抗体和蛋白质均实现66%的nM级结合物成功率(6/9靶点)。所有成功设计均通过人血清白蛋白(HSA)特异性筛选,无非特异性结合。

4.2 生物活性肽结合蛋白设计

实验由UCSF完成。针对3种抗菌肽和细胞毒性肽(protegrin:富含二硫键的β-发夹;melittin:膜结合时形成螺旋;indolicidin:polyproline II或两亲构象)。每个靶点测试6个设计,2个获得nM亲和力,1个获得µM亲和力,且能中和抗菌活性和溶血活性。

4.3 无序区域结合(NPM1)

实验由MPI完成。NPM1-c突变体是急性髓系白血病的已知驱动因子。生成20,000个肽设计(长度40-80),利用结合位点条件化针对无序区域,避免与结构化β-折叠区域相互作用。测试前5个设计,1个在活细胞中可靠定位于核仁,提示成功结合NPM1。这是de-novo设计蛋白在活细胞中结合无序蛋白的体内证据。

4.4 特定位点肽设计(RagC)

实验由IOCB Boston完成。RagC GTPase是细胞营养感应通路的核心组分。以RagC的一个相互作用表面为结合位点输入,生成10,000个设计(长度5-20)。测试29个,发现7个结合物,最高亲和力3.5 µM,第二高60 µM。

4.5 二硫键环肽(RagA:RagC)

实验由IOCB Boston完成。针对RagA:RagC二聚体设计二硫键环化肽(长度10-18),指定相互作用表面为结合位点,两个半胱氨酸共价键,中间6个设计残基,两侧各1-5个设计残基。生成50,000个设计,测试24个,发现14个结合物,其中8个解析亲和力,最高80 µM,第二高164 µM。

4.6 病毒蛋白纳米抗体

实验由UC Irvine完成。选择两个近期存入PDB的单体靶点:Penguinpox的cGAMP PDE(降解环二核苷酸抑制宿主STING信号)和Bordetella的FhaB(粘附蛋白)。每个靶点生成60,000个纳米抗体,各选择7个进行酵母表面展示实验。Penguinpox发现1个结合信号,Hemagglutinin发现7个结合信号(亲和力至多为2 µM)。

4.7 小分子结合蛋白

实验由UCSF完成。针对两个小分子设计结合蛋白:rucaparib(生成10,000个设计,长度140-180)和罗丹明衍生物(生成20,000个设计)。Rucaparib测试6个,5个显示结合,亲和力50-150 µM。罗丹明衍生物测试4个,均显示弱结合,亲和力30-250 µM。相比之下,先前专家引导的专业方法设计了rucaparib的低nM结合物。

4.8 抗菌肽(GyrA)

实验由MIT完成。针对细菌DNA旋转酶A亚基(GyrA)设计抑制性肽,指定GyrA自相互作用表面为结合位点,生成长度10-50的肽。选择1,808个设计进行生长抑制实验,352个(19.5%)抑制大肠杆菌生长>4倍。将设计中最接近靶点的3个残基突变为丙氨酸验证结合机制,54个(3.0%)失去活性。

4.9 5个基准靶点实验

实验由Adaptyv Bio完成。针对PD-L1、TNFα、PDGFR、IL-7Rα和InsulinR设计结合物,这些靶点在训练数据中有已知结合物。每个靶点生成30,000-60,000个设计,指定文献中的结合位点。纳米抗体和蛋白质均实现80%的nM级结合物成功率(4/5靶点)。

5. 局限性与讨论

5.1 亲和力范围

BoltzGen设计的结合物亲和力主要在µM到nM范围,尚未达到治疗性抗体和纳米抗体常见的pM级别。例如,在rucaparib案例中,专家引导的专业方法实现了低nM结合物,而BoltzGen仅达到50-150 µM。这表明通用设计模型在亲和力优化方面仍有提升空间。

5.2 表达成功率

论文未报告设计蛋白的表达成功率信息。表达失败可能由多种原因导致(如错误折叠、疏水补丁导致聚集),这是体外验证的关键瓶颈。更多表达数据有助于评估模型的实际可用性。

5.3 数据可用性

部分实验数据因合作者要求暂时保密,论文表示将在进一步结果可用时更新。这种数据不完整性限制了独立验证和全面评估的可能性。

5.4 与专家引导方法的对比

rucaparib案例凸显了通用模型与专家引导专业方法之间的差距。专业方法通过识别小分子上的特定化学基团实现低nM结合,而BoltzGen作为通用模型仅达到中等µM亲和力。这表明在特定应用场景下,领域知识的整合仍具有重要价值。

5.5 全新靶点的定义

论文将"全新靶点"定义为PDB中无>30%序列同源的结合结构。然而,这并不保证靶点表面不存在适合高亲和力结合的补丁。部分靶点可能根本不具备高亲和力蛋白-蛋白或纳米抗体-蛋白结合的能力,66%的成功率在此背景下应谨慎解读。

6. 结论

BoltzGen代表了从头结合物设计领域的重要进展,首次在统一的全原子生成模型框架内实现了跨模态(纳米抗体、蛋白质、肽、环肽)的高成功率设计。模型在全新靶点上66%的nM级结合物成功率展示了其向训练数据之外外推的能力。设计规范语言的灵活性使模型能够适应多样化的实际应用需求。

然而,模型在亲和力范围(未达到pM级别)、与专家引导方法的差距、以及部分实验数据的不完整性方面存在局限。对于药物发现应用,BoltzGen提供了一个强大的起点设计平台,但高亲和力优化和可开发性改进仍需后续工程。

未来发展方向

  • 整合亲和力预测模型(如Boltz-2)以指导设计优化
  • 扩展设计模态至抗体和小分子
  • 建立更全面的表达和可开发性预测
  • 与实验验证的更深集成以实现闭环设计

参考资料:
[1] Stark H, Faltings F, Choi MG, et al. BoltzGen: Toward Universal Binder Design. bioRxiv 2025. https://doi.org/10.1101/2025.11.20.689494

← 返回博客列表