摘要

VirSentAI 是由西班牙拉科鲁尼亚大学等机构开发的自主三模态智能体,旨在弥合病毒出现与治疗响应之间的差距。该系统通过 MedGemma 大型语言模型解析非结构化提交记录,利用微调 HyenaDNA 模型(v2-hyena-dna-16k)处理长达 160,000 碱基的完整病毒基因组以预测人类感染性,并通过 PLAPT 模型计算病毒蛋白与已批准药物的亲和力。在 31,728 个完整病毒基因组上,人畜共患病预测模块达到 AUROC 0.95。系统已扫描 16,060 个病毒,识别出 33 个高风险(≥90%)人畜共患病病毒,并生成 29,625 个病毒蛋白-药物相互作用预测。该平台免费开放,但其临床验证和实时监测效能仍有待评估。

1. 背景:人畜共患病监测的挑战

能够跨越物种屏障从动物宿主传播到人类的人畜共患病病毒,对全球健康构成持续且不可预测的威胁。COVID-19 大流行造成的社会 disruption 提醒我们,大多数新兴人类病原体——包括冠状病毒、丝状病毒和流感病毒——都源于动物。理论上,新型动物病毒的基因组测序可以确定其感染人类的潜力;然而实践中,实验室宿主范围测定是资源密集且回顾性的过程。

计算模型的发展经历了从高度专业化到泛化的演进。早期工具(如 HostPredictor、Flu-CNN)在特定病毒家族(如禽流感病毒)上达到 0.95-0.99 的 AUC,但适用范围狭窄。随后出现的泛病毒系统(如 VIDHOP、BiLSTM-VHP)扩展了应用范围,但往往以牺牲长程序列上下文为代价。近期,Evo 2 等大规模基础模型可处理百万级核苷酸上下文,但故意排除人类病原体训练数据以防滥用,这限制了其直接用于宿主预测的能力。

在此背景下,VirSentAI 被开发为占据这一精确生态位的系统——一个处理文本、DNA 和蛋白质序列以及药物 SMILES 的三 AI 模型智能体。它通过微调 HyenaDNA 架构,利用大规模预训练扫描完整病毒基因组,标记最可能感染人类的病毒,并自动触发下游治疗模块进行药物重定位。

2. 技术架构与方法

2.1 三模态智能体架构

VirSentAI 采用三阶段智能体工作流,每个阶段使用专门优化的 AI 架构处理不同类型的数据:

2.2 病毒哨兵层与数据流

系统的数据流始于 NCBI Nucleotide API,自动扫描新发布的完整病毒 DNA 序列。值得注意的是,系统选择直接使用 NCBI 而非 RefSeq,以优先获取最新提交的病毒序列,避免因专家策展流程引入延迟。

获取的序列经过 MedGemma 文本处理后,输入 HyenaDNA 模型计算人畜共患病分数。对于分数超过 90% 的病毒,系统自动提取 NCBI 中的病毒蛋白序列,并与 ChEMBL 的 FDA 批准药物 SMILES 一起输入 PLAPT 模型计算相互作用亲和力。所有数据存储在 SQLite 数据库中,经 Python 脚本处理后生成 JSON/CSV 摘要,最终通过网页界面展示为表格、动态图表和病毒-蛋白-药物相互作用网络。

2.3 模型训练细节

核心预测模型 virsentai-v2-hyena-dna-16k 基于 HyenaDNA-medium-160k-seqlen-hf 微调,使用 31,728 个完整病毒基因组(来自 NCBI、VirusHostDB 和 BV-BRC),严格平衡人类与非人类宿主标签以减轻分类偏差。模型训练 15 个 epoch,使用 16 位混合精度和 AdamW 优化器。为在单张 24GB NVIDIA GPU 上管理内存需求,采用 batch size 2 配合 8 步梯度累积,有效模拟更大 batch size。整个 150 小时训练过程在典型学术研究基础设施约束下完成。

3. 模型性能与监测结果

3.1 预测性能

在 31,728 个完整病毒基因组上的严格交叉验证中,VirSentAI 展现出稳健的分类能力,达到 AUROC 0.9496 和整体准确率 0.8724。这些指标使其在领域内处于竞争力水平,与报告 AUC 0.95-0.99 的领先模型(如 HostPredictor、Flu-CNN)相当。

值得注意的是,VirSentAI 的核心架构优势在于能够处理完整病毒基因组作为单一连续序列,捕获局部突变特征和跨基因组的长程依赖关系——这些上下文在依赖片段或特征工程的方法中经常丢失。

模型 核心方法 适用范围 性能 (AUC/ACC)
HostPredictor 梯度提升集成 禽流感病毒 AUC = 0.95
Flu-CNN 1D CNN 甲型流感病毒 ACC = 0.99
VIDHOP 深度神经网络 狂犬病毒、轮状病毒 AUC = 0.93-0.98
VirSentAI HyenaDNA 全病毒谱系 AUC = 0.95, ACC = 0.87

3.2 实际监测结果

截至当前日期,VirSentAI 已扫描 16,060 个病毒(包括新病毒和宿主未知的病毒),其中 33 个被预测具有 ≥90% 的人畜共患病风险。系统基于预测人畜共患病概率 ≥80% 的病毒,生成了 29,625 个病毒蛋白-药物 PLAPT 相互作用亲和力预测(亲和力 ≥8.0)。网页界面使用更严格的过滤条件(人畜共患病分数 ≥90%,PLAPT 亲和力 ≥10.0)展示统计数据。

Top 10 高风险病毒包括:Isavirus salaris(鲑鱼病毒,98.15%)、Longquan virus(蝙蝠/食虫动物/啮齿动物病毒,98.00%)、Choristoneura fumiferana entomopoxvirus(97.90%)、Influenza B virus(乙型流感病毒,97.58%)等。值得注意的是,部分预测结果涉及非哺乳动物宿主病毒(如藻类病毒、昆虫病毒),其生物学合理性值得进一步探讨。

4. 讨论

4.1 技术贡献与意义

VirSentAI 代表了多模态智能体在人畜共患病监测中的创新应用。其三阶段架构(文本-基因组-化学)展示了整合异构数据类型的可行性,填补了专业化工具与泛化基础模型之间的空白。

HyenaDNA 长上下文架构的应用证明了处理完整病毒基因组(而非片段)在捕获宿主适应性信号方面的价值。系统的计算效率(1.2 亿参数,单 GPU 训练)使其在学术机构资源约束下具有可操作性,而开放科学实践(代码和平台免费开放)有助于降低全球健康监测的准入门槛。

4.2 局限与待验证问题

尽管技术架构令人鼓舞,本研究存在若干重要待验证之处:

4.3 与相关工作的比较

与近期发表的 Fleming(抗生素设计智能体)和 Latent-Y(生物制剂设计智能体)相比,VirSentAI 展示了多模态智能体框架在不同生物医学领域的适用性。三者的共同特点是将专业 AI 模型与 LLM 协调层结合,实现端到端工作流;差异在于应用领域和数据模态。

与 HostPredictor、Flu-CNN 等专业化工具相比,VirSentAI 的优势在于泛化至全病毒谱系,劣势在于准确率略低且未经实验验证。与 Evo 2 等基础模型相比,VirSentAI 专门针对人畜共患病预测微调,而 Evo 2 因安全考虑排除人类病原体训练数据。

5. 结论

VirSentAI 作为自主多模态人畜共患病监测智能体,展示了整合文本、基因组和化学数据的端到端架构可行性。其 0.95 的 AUROC 和 160k 碱基长上下文处理能力表明,HyenaDNA 架构在病毒基因组分析中具有应用潜力。

然而,缺乏湿实验验证、预测阈值的生物学依据不足、以及实时监测的实际效能未知,严重限制了当前对其公共卫生价值的判断。未来研究应优先进行:

  1. 预测病毒的实验室宿主范围验证
  2. 与公共卫生机构的预警系统集成测试
  3. 历史疫情回顾性验证以评估实际预警时效性

只有在完成这些验证后,VirSentAI 才能从研究原型转化为可操作的大流行防范工具。

参考资料

  • Munteanu CR, Vázquez-Naya JM, Tejera E. Viral Sentry AI (VirSentAI) - Automated Zoonotic Surveillance & Drug Repurposing Agent. bioRxiv. 2025. DOI: 10.64898/2025.12.29.684576
  • 代码仓库: https://github.com/muntisa/virsentai
  • 平台: https://muntisa.github.io/virsentai
  • 相关模型: HyenaDNA, MedGemma, PLAPT, Evo 2
  • 对比工具: HostPredictor, VIDHOP, BiLSTM-VHP, Flu-CNN
  • 相关智能体: Fleming (Harvard) - 抗生素设计, Latent-Y (Latent Labs) - 生物制剂设计
← 返回博客列表