原文:Stark et al., bioRxiv 2025
DOI:10.1101/2025.11.20.689494
摘要
BoltzGen是MIT、Valence Labs等机构联合开发的开源全原子生成模型,用于设计蛋白质和多肽结合物。模型将设计与结构预测统一,在保持AlphaFold 3级别折叠性能的同时,实现跨模态(纳米抗体、蛋白质、肽、二硫键环肽)的结合物设计。在8个湿实验验证项目中,针对9个全新靶点(PDB中无>30%同源结合结构)的纳米抗体和蛋白质设计均实现66%的nM级结合物成功率。模型提供灵活的设计规范语言,支持共价键约束、结构约束和残基身份约束。
1. 研究背景
1.1 从头结合物设计的挑战
从头结合物设计具有自动化药物发现的巨大潜力。该任务要求模型能够理解靶点-结合物相互作用的三维结构特征,并生成具有特定结合能力的新分子。这一挑战涉及复杂的结构推理和广阔的序列-结构空间探索。
1.2 现有方法的局限
现有技术存在以下关键局限:一是模态特异性,许多方法仅针对特定类别的生物分子(如纳米抗体或肽)进行优化;二是训练数据相似性偏差,现有方法通常在训练数据中有密切相关复合物的靶点上进行测试,而从头设计的真正价值在于其向简单靶点之外外推的能力;三是设计过程缺乏灵活控制,难以满足实际发现活动中的多样化需求。
1.3 统一设计与结构预测的需求
模型主要通过提供的示例来学习模拟物理规律,因此扩展方法的通用性有助于提升其在特定类别上的设计能力。将设计与结构预测统一,使模型能够同时学习折叠物理和结合相互作用,从而增强结构推理能力。
2. 技术架构
2.1 全原子生成模型形式化
BoltzGen采用全原子生成模型,直接建模原子坐标而非简化的残基表示。这种表示方式使模型能够捕捉精细的原子级相互作用,包括氢键、疏水相互作用和范德华力等。
2.2 架构组件
模型架构包含以下核心组件:
- 几何表示:基于纯几何的残基类型表示,支持设计任务和折叠任务的同步训练
- Trunk:处理输入序列和结构信息的主干网络
- 去噪模块:扩散模型用于生成原子坐标
与先前设计模型不同,BoltzGen匹配最先进折叠模型的性能,实现了设计与预测的真正统一。
2.3 与结构预测的统一
关键创新在于将设计任务和折叠任务整合到单一模型中同时训练。这种统一使模型能够:
- 学习从序列到结构的映射(折叠任务)
- 学习从靶点结构到结合物序列-结构的映射(设计任务)
- 在两个任务之间共享结构表示和物理知识
结果是模型既能准确预测给定序列的结构,又能为给定靶点设计新的结合物。
2.4 与Boltz-1/2的架构关系
BoltzGen建立在Boltz-1和Boltz-2的技术基础之上,继承了其trunk架构和扩散生成框架。主要区别在于:引入了几何表示以实现残基类型的灵活设计、扩展了生成能力从结构预测到de-novo设计、集成了设计规范语言以支持灵活约束。
3. 设计规范语言
BoltzGen提供灵活的设计规范语言,允许用户根据具体应用需求约束设计过程。
3.1 共价键约束
支持指定设计中的共价键连接,如二硫键(两个半胱氨酸之间的共价键)。这允许设计环化肽等具有增强稳定性的分子。
3.2 结构约束
包括部分结构约束(指定结合物的部分三维结构)、结合位点约束(指定靶点上期望的结合区域)、以及"不结合"约束(指定应避免相互作用的区域)。
3.3 残基身份约束
允许固定特定位置的残基类型或序列模式,如固定纳米抗体框架区域仅设计CDR环、或保留已知重要的功能残基。
3.4 应用场景示例
- 纳米抗体设计:从4个默认支架中随机选择,固定框架区域,替换3个CDR区域为随机长度的环
- 二硫键环肽设计:指定两个半胱氨酸形成共价键,中间为设计残基
- 无序蛋白结合:指定结合无序区域,避免与结构化区域相互作用
4. 湿实验验证
BoltzGen在8个独立湿实验验证项目中进行了测试,涉及多个合作实验室,每个实验室选择与其特定应用相关的靶点和输出模态。
4.1 9个全新靶点的纳米抗体/蛋白质设计
实验由Adaptyv Bio完成。选择9个靶点,确保PDB中无>30%序列同源的结合结构。针对每个靶点生成60,000个纳米抗体和60,000个蛋白质(长度80-140),不指定结合位点。每个靶点实验验证15个设计,纳米抗体和蛋白质均实现66%的nM级结合物成功率(6/9靶点)。所有成功设计均通过人血清白蛋白(HSA)特异性筛选,无非特异性结合。
4.2 生物活性肽结合蛋白设计
实验由UCSF完成。针对3种抗菌肽和细胞毒性肽(protegrin:富含二硫键的β-发夹;melittin:膜结合时形成螺旋;indolicidin:polyproline II或两亲构象)。每个靶点测试6个设计,2个获得nM亲和力,1个获得µM亲和力,且能中和抗菌活性和溶血活性。
4.3 无序区域结合(NPM1)
实验由MPI完成。NPM1-c突变体是急性髓系白血病的已知驱动因子。生成20,000个肽设计(长度40-80),利用结合位点条件化针对无序区域,避免与结构化β-折叠区域相互作用。测试前5个设计,1个在活细胞中可靠定位于核仁,提示成功结合NPM1。这是de-novo设计蛋白在活细胞中结合无序蛋白的体内证据。
4.4 特定位点肽设计(RagC)
实验由IOCB Boston完成。RagC GTPase是细胞营养感应通路的核心组分。以RagC的一个相互作用表面为结合位点输入,生成10,000个设计(长度5-20)。测试29个,发现7个结合物,最高亲和力3.5 µM,第二高60 µM。
4.5 二硫键环肽(RagA:RagC)
实验由IOCB Boston完成。针对RagA:RagC二聚体设计二硫键环化肽(长度10-18),指定相互作用表面为结合位点,两个半胱氨酸共价键,中间6个设计残基,两侧各1-5个设计残基。生成50,000个设计,测试24个,发现14个结合物,其中8个解析亲和力,最高80 µM,第二高164 µM。
4.6 病毒蛋白纳米抗体
实验由UC Irvine完成。选择两个近期存入PDB的单体靶点:Penguinpox的cGAMP PDE(降解环二核苷酸抑制宿主STING信号)和Bordetella的FhaB(粘附蛋白)。每个靶点生成60,000个纳米抗体,各选择7个进行酵母表面展示实验。Penguinpox发现1个结合信号,Hemagglutinin发现7个结合信号(亲和力至多为2 µM)。
4.7 小分子结合蛋白
实验由UCSF完成。针对两个小分子设计结合蛋白:rucaparib(生成10,000个设计,长度140-180)和罗丹明衍生物(生成20,000个设计)。Rucaparib测试6个,5个显示结合,亲和力50-150 µM。罗丹明衍生物测试4个,均显示弱结合,亲和力30-250 µM。相比之下,先前专家引导的专业方法设计了rucaparib的低nM结合物。
4.8 抗菌肽(GyrA)
实验由MIT完成。针对细菌DNA旋转酶A亚基(GyrA)设计抑制性肽,指定GyrA自相互作用表面为结合位点,生成长度10-50的肽。选择1,808个设计进行生长抑制实验,352个(19.5%)抑制大肠杆菌生长>4倍。将设计中最接近靶点的3个残基突变为丙氨酸验证结合机制,54个(3.0%)失去活性。
4.9 5个基准靶点实验
实验由Adaptyv Bio完成。针对PD-L1、TNFα、PDGFR、IL-7Rα和InsulinR设计结合物,这些靶点在训练数据中有已知结合物。每个靶点生成30,000-60,000个设计,指定文献中的结合位点。纳米抗体和蛋白质均实现80%的nM级结合物成功率(4/5靶点)。
5. 局限性与讨论
5.1 亲和力范围
BoltzGen设计的结合物亲和力主要在µM到nM范围,尚未达到治疗性抗体和纳米抗体常见的pM级别。例如,在rucaparib案例中,专家引导的专业方法实现了低nM结合物,而BoltzGen仅达到50-150 µM。这表明通用设计模型在亲和力优化方面仍有提升空间。
5.2 表达成功率
论文未报告设计蛋白的表达成功率信息。表达失败可能由多种原因导致(如错误折叠、疏水补丁导致聚集),这是体外验证的关键瓶颈。更多表达数据有助于评估模型的实际可用性。
5.3 数据可用性
部分实验数据因合作者要求暂时保密,论文表示将在进一步结果可用时更新。这种数据不完整性限制了独立验证和全面评估的可能性。
5.4 与专家引导方法的对比
rucaparib案例凸显了通用模型与专家引导专业方法之间的差距。专业方法通过识别小分子上的特定化学基团实现低nM结合,而BoltzGen作为通用模型仅达到中等µM亲和力。这表明在特定应用场景下,领域知识的整合仍具有重要价值。
5.5 全新靶点的定义
论文将"全新靶点"定义为PDB中无>30%序列同源的结合结构。然而,这并不保证靶点表面不存在适合高亲和力结合的补丁。部分靶点可能根本不具备高亲和力蛋白-蛋白或纳米抗体-蛋白结合的能力,66%的成功率在此背景下应谨慎解读。
6. 结论
BoltzGen代表了从头结合物设计领域的重要进展,首次在统一的全原子生成模型框架内实现了跨模态(纳米抗体、蛋白质、肽、环肽)的高成功率设计。模型在全新靶点上66%的nM级结合物成功率展示了其向训练数据之外外推的能力。设计规范语言的灵活性使模型能够适应多样化的实际应用需求。
然而,模型在亲和力范围(未达到pM级别)、与专家引导方法的差距、以及部分实验数据的不完整性方面存在局限。对于药物发现应用,BoltzGen提供了一个强大的起点设计平台,但高亲和力优化和可开发性改进仍需后续工程。
未来发展方向
- 整合亲和力预测模型(如Boltz-2)以指导设计优化
- 扩展设计模态至抗体和小分子
- 建立更全面的表达和可开发性预测
- 与实验验证的更深集成以实现闭环设计
参考资料:
[1] Stark H, Faltings F, Choi MG, et al. BoltzGen: Toward Universal Binder Design. bioRxiv 2025. https://doi.org/10.1101/2025.11.20.689494