原文:Boitreaud et al., bioRxiv 2024
DOI:10.1101/2024.10.10.615955

摘要

Chai-1 是一款多模态分子结构预测基础模型,在蛋白质-配体相互作用预测和蛋白质多聚体预测等多个任务上达到了业界领先水平。该模型的特色在于支持实验约束提示(如交联质谱、表位映射数据),可显著提升预测准确性;同时具备单序列预测能力,无需多序列比对(MSA)即可保持较高性能。模型权重和推理代码以非商业用途开源,同时提供可免费商用的 Web 界面。

1. 背景:结构预测的新阶段

2024年,分子结构预测领域进入了多模态融合的新阶段。AlphaFold3 的发布展示了统一框架处理多种生物分子类型的可能性,而 Chai-1 则在此基础上进一步探索了实验数据与计算模型的融合路径。

蛋白质结构预测的传统范式依赖于多序列比对(MSA)来捕捉共进化的信息。然而,MSA 的获取需要同源序列的存在,对于某些蛋白质(如抗体可变区)可能难以获得深度 MSA。此外,实验技术(如交联质谱、表位映射)可以提供额外的空间约束信息,但如何将这些信息有效整合到预测模型中,一直是一个开放问题。

Chai-1 的设计目标正是解决这些问题:单序列预测能力、实验约束整合、多任务统一

2. 技术架构与创新

2.1 基础架构

Chai-1 的神经网络架构主要基于 AlphaFold3 的设计,采用 pair-bias self-attention 机制。关键差异在于使用单一模型策略处理所有评估任务,训练数据截止于 2021-01-12。

2.2 语言模型嵌入

Chai-1 引入了蛋白质语言模型的嵌入作为额外输入轨道,使用 30 亿参数的语言模型生成残基级嵌入。这一设计使 Chai-1 在单序列模式下仍能保持较高准确性。

2.3 约束特征

Chai-1 支持多种实验约束特征:

3. 性能评估

3.1 蛋白质-配体预测

在 PoseBusters 基准测试上,Chai-1 达到 77% 成功率(配体 RMSD < 2Å),与 AlphaFold3 的 76% 相当。加入 apo 结构提示后,成功率提升至 81%

3.2 蛋白质多聚体预测

在低同源性的蛋白质-蛋白质界面评估集(n=929 界面聚类)上:

统计检验显示 Chai-1 显著优于 AF-Multimer 2.3(p = 6.24 × 10^-10)。

3.3 抗体-蛋白质界面预测

在抗体-蛋白质界面子集上,Chai-1 单序列模式与完整模式性能相近,甚至优于使用 MSA 的 AF-Multimer 2.3。这一发现具有重要意义:抗体可变区序列多样性高,MSA 信息有限,单序列方法在此类任务上具有天然优势。

3.4 约束提示的效果

在抗体-抗原复合物预测中,实验约束的效果显著:

4. 开源与可用性

Chai-1 采用了分层开放策略:模型权重和推理代码以 Python 包形式发布(非商业用途);Web 界面可免费用于商业药物发现。这种策略在促进学术研究和支持商业应用之间取得了平衡。

5. 局限性与讨论

5.1 已知局限

5.2 与 AlphaFold3 的比较

Chai-1 与 AlphaFold3 在基准测试性能上相当,但 Chai-1 的约束提示功能和单序列能力为其在特定应用场景中提供了差异化优势。

6. 结论

Chai-1 代表了分子结构预测领域向多模态融合方向发展的重要尝试。通过整合蛋白质语言模型嵌入和实验约束特征,该模型在保持与 AlphaFold3 相当性能的同时,拓展了单序列预测和实验数据整合的能力。对于药物发现领域,Chai-1 的开源策略和免费商用 Web 界面降低了使用门槛,其抗体-蛋白质界面预测能力对抗体药物研发具有直接应用价值。

参考资料

Boitreaud, J., et al. (2024). Chai-1: Decoding the molecular interactions of life. bioRxiv. https://doi.org/10.1101/2024.10.10.615955

代码:https://github.com/chaidiscovery/chai-lab/
Web界面:https://lab.chaidiscovery.com/

← 返回博客列表