摘要
VirSentAI 是由西班牙拉科鲁尼亚大学等机构开发的自主三模态智能体,旨在弥合病毒出现与治疗响应之间的差距。该系统通过 MedGemma 大型语言模型解析非结构化提交记录,利用微调 HyenaDNA 模型(v2-hyena-dna-16k)处理长达 160,000 碱基的完整病毒基因组以预测人类感染性,并通过 PLAPT 模型计算病毒蛋白与已批准药物的亲和力。在 31,728 个完整病毒基因组上,人畜共患病预测模块达到 AUROC 0.95。系统已扫描 16,060 个病毒,识别出 33 个高风险(≥90%)人畜共患病病毒,并生成 29,625 个病毒蛋白-药物相互作用预测。该平台免费开放,但其临床验证和实时监测效能仍有待评估。
1. 背景:人畜共患病监测的挑战
能够跨越物种屏障从动物宿主传播到人类的人畜共患病病毒,对全球健康构成持续且不可预测的威胁。COVID-19 大流行造成的社会 disruption 提醒我们,大多数新兴人类病原体——包括冠状病毒、丝状病毒和流感病毒——都源于动物。理论上,新型动物病毒的基因组测序可以确定其感染人类的潜力;然而实践中,实验室宿主范围测定是资源密集且回顾性的过程。
计算模型的发展经历了从高度专业化到泛化的演进。早期工具(如 HostPredictor、Flu-CNN)在特定病毒家族(如禽流感病毒)上达到 0.95-0.99 的 AUC,但适用范围狭窄。随后出现的泛病毒系统(如 VIDHOP、BiLSTM-VHP)扩展了应用范围,但往往以牺牲长程序列上下文为代价。近期,Evo 2 等大规模基础模型可处理百万级核苷酸上下文,但故意排除人类病原体训练数据以防滥用,这限制了其直接用于宿主预测的能力。
在此背景下,VirSentAI 被开发为占据这一精确生态位的系统——一个处理文本、DNA 和蛋白质序列以及药物 SMILES 的三 AI 模型智能体。它通过微调 HyenaDNA 架构,利用大规模预训练扫描完整病毒基因组,标记最可能感染人类的病毒,并自动触发下游治疗模块进行药物重定位。
2. 技术架构与方法
2.1 三模态智能体架构
VirSentAI 采用三阶段智能体工作流,每个阶段使用专门优化的 AI 架构处理不同类型的数据:
- 第一阶段:使用 MedGemma(medgemma-4b-it-Q8_0)大型语言模型解析非结构化的 NCBI 提交记录,提取关键元信息并校正宿主信息
- 第二阶段:使用 virsentai-v2-hyena-dna-16k 模型,这是一个微调的 HyenaDNA 架构,能够处理长达 160,000 碱基的完整病毒基因组,捕获与人类嗜性相关的长程依赖关系
- 第三阶段:使用 PLAPT(Protein-Ligand Affinity Prediction Transformer)模型,基于 ProtBERT 蛋白质嵌入和 ChemBERTa 药物嵌入,计算病毒蛋白与 ChEMBL 批准药物的亲和力
2.2 病毒哨兵层与数据流
系统的数据流始于 NCBI Nucleotide API,自动扫描新发布的完整病毒 DNA 序列。值得注意的是,系统选择直接使用 NCBI 而非 RefSeq,以优先获取最新提交的病毒序列,避免因专家策展流程引入延迟。
获取的序列经过 MedGemma 文本处理后,输入 HyenaDNA 模型计算人畜共患病分数。对于分数超过 90% 的病毒,系统自动提取 NCBI 中的病毒蛋白序列,并与 ChEMBL 的 FDA 批准药物 SMILES 一起输入 PLAPT 模型计算相互作用亲和力。所有数据存储在 SQLite 数据库中,经 Python 脚本处理后生成 JSON/CSV 摘要,最终通过网页界面展示为表格、动态图表和病毒-蛋白-药物相互作用网络。
2.3 模型训练细节
核心预测模型 virsentai-v2-hyena-dna-16k 基于 HyenaDNA-medium-160k-seqlen-hf 微调,使用 31,728 个完整病毒基因组(来自 NCBI、VirusHostDB 和 BV-BRC),严格平衡人类与非人类宿主标签以减轻分类偏差。模型训练 15 个 epoch,使用 16 位混合精度和 AdamW 优化器。为在单张 24GB NVIDIA GPU 上管理内存需求,采用 batch size 2 配合 8 步梯度累积,有效模拟更大 batch size。整个 150 小时训练过程在典型学术研究基础设施约束下完成。
3. 模型性能与监测结果
3.1 预测性能
在 31,728 个完整病毒基因组上的严格交叉验证中,VirSentAI 展现出稳健的分类能力,达到 AUROC 0.9496 和整体准确率 0.8724。这些指标使其在领域内处于竞争力水平,与报告 AUC 0.95-0.99 的领先模型(如 HostPredictor、Flu-CNN)相当。
值得注意的是,VirSentAI 的核心架构优势在于能够处理完整病毒基因组作为单一连续序列,捕获局部突变特征和跨基因组的长程依赖关系——这些上下文在依赖片段或特征工程的方法中经常丢失。
| 模型 | 核心方法 | 适用范围 | 性能 (AUC/ACC) |
|---|---|---|---|
| HostPredictor | 梯度提升集成 | 禽流感病毒 | AUC = 0.95 |
| Flu-CNN | 1D CNN | 甲型流感病毒 | ACC = 0.99 |
| VIDHOP | 深度神经网络 | 狂犬病毒、轮状病毒 | AUC = 0.93-0.98 |
| VirSentAI | HyenaDNA | 全病毒谱系 | AUC = 0.95, ACC = 0.87 |
3.2 实际监测结果
截至当前日期,VirSentAI 已扫描 16,060 个病毒(包括新病毒和宿主未知的病毒),其中 33 个被预测具有 ≥90% 的人畜共患病风险。系统基于预测人畜共患病概率 ≥80% 的病毒,生成了 29,625 个病毒蛋白-药物 PLAPT 相互作用亲和力预测(亲和力 ≥8.0)。网页界面使用更严格的过滤条件(人畜共患病分数 ≥90%,PLAPT 亲和力 ≥10.0)展示统计数据。
Top 10 高风险病毒包括:Isavirus salaris(鲑鱼病毒,98.15%)、Longquan virus(蝙蝠/食虫动物/啮齿动物病毒,98.00%)、Choristoneura fumiferana entomopoxvirus(97.90%)、Influenza B virus(乙型流感病毒,97.58%)等。值得注意的是,部分预测结果涉及非哺乳动物宿主病毒(如藻类病毒、昆虫病毒),其生物学合理性值得进一步探讨。
4. 讨论
4.1 技术贡献与意义
VirSentAI 代表了多模态智能体在人畜共患病监测中的创新应用。其三阶段架构(文本-基因组-化学)展示了整合异构数据类型的可行性,填补了专业化工具与泛化基础模型之间的空白。
HyenaDNA 长上下文架构的应用证明了处理完整病毒基因组(而非片段)在捕获宿主适应性信号方面的价值。系统的计算效率(1.2 亿参数,单 GPU 训练)使其在学术机构资源约束下具有可操作性,而开放科学实践(代码和平台免费开放)有助于降低全球健康监测的准入门槛。
4.2 局限与待验证问题
尽管技术架构令人鼓舞,本研究存在若干重要待验证之处:
- 缺乏湿实验验证:论文未报告任何预测病毒的实验室宿主范围验证,无法确认模型的实际预测准确性
- 训练数据质量风险:依赖公共数据库注释,可能存在标签噪声和采样偏差
- 上下文长度限制:160k 碱基限制无法处理更大病毒基因组(如痘病毒 ~300k)
- 部分预测结果生物学合理性存疑:Top 10 中包含藻类病毒和昆虫病毒,其人畜共患病潜力需要更多证据支持
- 实时监测效能未知:系统部署后的实际预警效果和时效性有待评估
- 与公共卫生系统的整合缺失:论文未讨论如何将监测结果有效传达给公共卫生决策者
4.3 与相关工作的比较
与近期发表的 Fleming(抗生素设计智能体)和 Latent-Y(生物制剂设计智能体)相比,VirSentAI 展示了多模态智能体框架在不同生物医学领域的适用性。三者的共同特点是将专业 AI 模型与 LLM 协调层结合,实现端到端工作流;差异在于应用领域和数据模态。
与 HostPredictor、Flu-CNN 等专业化工具相比,VirSentAI 的优势在于泛化至全病毒谱系,劣势在于准确率略低且未经实验验证。与 Evo 2 等基础模型相比,VirSentAI 专门针对人畜共患病预测微调,而 Evo 2 因安全考虑排除人类病原体训练数据。
5. 结论
VirSentAI 作为自主多模态人畜共患病监测智能体,展示了整合文本、基因组和化学数据的端到端架构可行性。其 0.95 的 AUROC 和 160k 碱基长上下文处理能力表明,HyenaDNA 架构在病毒基因组分析中具有应用潜力。
然而,缺乏湿实验验证、预测阈值的生物学依据不足、以及实时监测的实际效能未知,严重限制了当前对其公共卫生价值的判断。未来研究应优先进行:
- 预测病毒的实验室宿主范围验证
- 与公共卫生机构的预警系统集成测试
- 历史疫情回顾性验证以评估实际预警时效性
只有在完成这些验证后,VirSentAI 才能从研究原型转化为可操作的大流行防范工具。
参考资料
- Munteanu CR, Vázquez-Naya JM, Tejera E. Viral Sentry AI (VirSentAI) - Automated Zoonotic Surveillance & Drug Repurposing Agent. bioRxiv. 2025. DOI: 10.64898/2025.12.29.684576
- 代码仓库: https://github.com/muntisa/virsentai
- 平台: https://muntisa.github.io/virsentai
- 相关模型: HyenaDNA, MedGemma, PLAPT, Evo 2
- 对比工具: HostPredictor, VIDHOP, BiLSTM-VHP, Flu-CNN
- 相关智能体: Fleming (Harvard) - 抗生素设计, Latent-Y (Latent Labs) - 生物制剂设计