Fleming：用于结核分枝杆菌抗生素设计的整合性AI智能体

原文作者：Wei Z, Ektefaie Y, Zhou A, et al. (Harvard Medical School, FutureHouse Inc., Texas A&M)
发表于：bioRxiv, 2026年3月12日 | DOI: 10.1101/2025.04.01.646719

摘要

Fleming是由哈佛大学等机构开发的用于结核病抗生素发现的整合性AI智能体。该系统通过中央药物化学家智能体协调四个专业子智能体，整合9个分子AI模型与11个工具，实现从分子生成、活性预测、ADMET优化到文献推理的端到端工作流。

在114,900个化合物训练的DMPNN抑制预测模型支持下，Fleming在435个分子的前瞻性验证中达到83%命中率。更重要的是，6个从头设计的生成分子经湿实验验证全部显示Mtb抑制活性（100%命中率），其中4个具备适合进入hit-to-lead项目的药代动力学特性。该研究展示了智能体框架在抗生素发现中的潜力，但其泛化能力至其他病原体及长期临床可行性仍有待验证。

核心数据

前瞻性验证命中率：83% (5/6预测抑制剂)
从头设计命中率：100% (6/6生成分子)
富集提升：17-83倍（vs 随机筛选1-5%）
hit-to-lead候选：4/6分子具备良好PK特性
训练数据：114,933个多样化化合物

1. 背景：结核病抗生素发现的挑战

耐多药结核分枝杆菌（MDR-Mtb）在2022年导致约16万人死亡，占全球抗菌素耐药性死亡总数的13%以上。数学模型估计，近1900万人携带潜伏性MDR-TB感染，面临进展为活动性疾病的风险。这种持续威胁反映了结核病化疗周期长、依赖已使用超过五十年的抗生素等现实困境。因此，迫切需要针对新机制、能够实现更短更有效治疗方案的新型结核病抗生素。

传统高通量抗菌筛选（HTS）虽然能够评估数十万个化合物的全细胞生长抑制，但采样的化学空间有限且高度冗余。尽管经过数十年努力，HTS驱动的具有优良性质的结核病活性分子发现仍然缓慢、昂贵且劳动密集。这些挑战凸显了开发能够高效探索代表性不足化学空间、同时满足复杂生物学约束的替代方法的必要性。

在此背景下，Fleming应运而生——这是一个由哈佛大学、Broad研究所、FutureHouse和Texas A&M等机构合作开发的AI驱动多领域平台，旨在加速下一代结核病抗生素的发现。该系统利用大型语言模型（LLM）整合异构文本和分子信息，作为协调多个预测工具的代理，在交互式多目标发现工作流中发挥作用。

2. 技术架构与方法

2.1 智能体架构

Fleming采用分层智能体架构，由一个中央"药物化学家智能体"协调四个专业子智能体：Mtb生长抑制智能体、分子生成智能体、ADMET智能体和分子优化智能体。各子智能体可直接访问9个分子AI模型和11个工具，涵盖从标准化学信息学方法到自定义工具（如自然语言分子描述器和分子新颖性计算器）。

这种架构使Fleming能够在实时协同模式（co-pilot）下分析或生成少量分子，或在批量模式下处理大型化合物库以识别和优先排序有前景的候选物。

2.2 核心AI模型

抑制预测模型基于有向消息传递神经网络（DMPNN），在114,933个多样化化合物和片段上进行训练。通过添加Dirichlet损失的证据框架（evidential framework）捕捉预测不确定性，模型AUROC从0.76提升至0.79，AUPRC从0.18提升至0.20。

在结构新颖性方面，扩散生成模型能够组装原子级构建块，生成结构新颖的抗生素候选物；与基于片段的SyntheMol方法相比，扩散模型生成的分子新颖性更高，但合成复杂度也相应增加。

2.3 ADMET预测与分子优化

ADMET智能体整合了37个独立的DMPNN模型（吸收7个、分布3个、代谢5个、排泄3个、毒性19个），数据来源于Therapeutics Data Commons（TDC）。

分子优化智能体通过定向搜索分子邻居来优化初始设计，在保持预测抑制活性的同时改善ADMET性质。优化后，预测失败超过25% ADMET任务的比例从42.5%显著降至5.0%，且未改变预测抑制活性。

3. 湿实验验证结果

3.1 抑制预测前瞻性验证

为验证抑制预测模型的泛化能力，研究团队对435个结构多样化分子（与训练集最大成对Tanimoto相似度中位数0.41）进行前瞻性验证。Fleming预测其中6个为生长抑制剂，429个为非抑制剂。

湿实验结果显示，5个预测的抑制剂确实抑制Mtb生长（83.3%命中率），382个预测的非抑制剂确实无抑制活性（89.0%正确率）。这一表现显著优于随机筛选的1-5%命中率，实现了17-83倍的富集提升。

3.2 从头生成设计验证

研究团队使用Fleming批量模式设计Mtb抑制剂：扩散模型生成710个分子，SyntheMol生成6,275个分子。经抑制活性、ADMET、新颖性和合成可及性排序后，进一步优化ADMET性能。最终由Fleming和独立药物化学家共同选出34个分子，其中6个被合成。

100%命中率的里程碑

值得注意的是，全部6个分子均以剂量依赖方式抑制mc2-7000 Mtb菌株生长，EC50范围为3.6 µM至75.4 µM。这一结果随机发生的概率极低（假设随机命中率1-5%，则概率 < 10^-10 至 10^-6）。

6个分子中5个通过全部Lipinski规则，且与训练集及11,272个候选/已批准抗生素数据库的成对Tanimoto相似度均< 0.33，证实了其结构新颖性。

3.3 毒性与药代动力学评估

6个候选分子中，5个对HepG2、HEK293T和HDF细胞系显示无至低细胞毒性。以HepG2计算选择性指数：2个分子显示高选择性（SI = 3.6和10.8），1个中等选择性（SI = 2.1）。

5个测试分子均显示稳健代谢稳定性（半衰期46-1072分钟），血浆蛋白结合率（PPBR）7-100%，与临床使用的结核病药物相当。综合中等至高选择性、良好的安全性和PK特性，6个生成分子中4个达到适合进入hit-to-lead项目的水平。

4. 讨论

4.1 技术贡献与意义

Fleming代表了智能体框架在抗生素发现中的首次端到端验证，其核心价值在于将分散在多个领域专家中的化学和生物学知识整合为统一的AI平台。100%的生成设计命中率和17-83倍富集提升表明，整合分子生成、性质优化和文献推理的智能体方法能够显著加速临床前先导物识别。

该系统通过自然语言界面和开源组件（GitHub发布），有望降低药物发现的准入门槛。

4.2 局限与待验证问题

尽管结果令人鼓舞，本研究存在若干待验证之处：

样本量限制：仅6个生成分子经湿实验验证，统计显著性有限，尚不足以推断大规模适用性。
靶点单一性：仅针对Mtb，其他病原体适用性需重新训练抑制预测模型。
合成可行性：扩散模型生成的分子合成可及性评分（SAScore）高于基于片段的方法，尽管99%仍在可合成范围（SAScore < 6）。
结构验证缺失：论文未报告晶体学或冷冻电镜结构验证，以确认设计模型与实际结合模式的吻合度。

4.3 与相关工作的比较

与SyntheMol等基于片段的生成方法相比，Fleming的扩散模型探索的化学空间更广、新颖性更高，但合成复杂度也相应增加。

与近期发表的Latent-Y（生物制剂设计智能体）相比，Fleming聚焦小分子抗生素，两者在各自领域展示了智能体框架的价值，但应用领域不同。

Fleming与通用LLM（GPT-4/o4-mini）相比，在区分Mtb先导物与其他疾病先导物方面准确率提高17%（AUROC 0.85 vs 0.68），在挑战性ADMET任务上提高13%，展示了整合专业模型的优势。

5. 结论

Fleming作为经湿实验验证的整合性抗生素设计智能体，展示了从化学空间探索到临床前候选物识别的端到端能力。其100%生成设计命中率和17-83倍富集提升表明，智能体框架能够有效协调分子AI模型、优化工具和文献知识，加速早期药物发现。

然而，更大规模的湿实验验证、多病原体适用性测试、长期临床转化研究，将是决定其可持续影响力的关键。

Fleming应被视为对传统药物发现流程的补充而非替代，其真正价值在于加速早期先导物识别阶段，为后续的药物化学优化与临床开发提供高质量起点。随着AI系统持续成熟，类似Fleming的智能体框架有望帮助降低全球健康挑战（特别是被忽视的传染病）药物发现的准入门槛。

参考资料

Wei Z, Ektefaie Y, Zhou A, et al. Fleming: An AI Agent for Antibiotic Design for Mycobacterium tuberculosis. bioRxiv. 2026. DOI: 10.1101/2025.04.01.646719
代码仓库: https://github.com/farhat-lab/Fleming
相关工具: PaperQA2 (FutureHouse), Therapeutics Data Commons (TDC)
对比模型: SyntheMol, Chemprop, DMPNN, EGNN, Transformer-M
相关智能体: Latent-Y (Latent Labs) - 生物制剂设计

← 返回博客列表