VirSentAI：人畜共患病监测与药物重定位的自主多模态智能体

摘要

VirSentAI 是由西班牙拉科鲁尼亚大学等机构开发的自主三模态智能体，旨在弥合病毒出现与治疗响应之间的差距。该系统通过 MedGemma 大型语言模型解析非结构化提交记录，利用微调 HyenaDNA 模型（v2-hyena-dna-16k）处理长达 160,000 碱基的完整病毒基因组以预测人类感染性，并通过 PLAPT 模型计算病毒蛋白与已批准药物的亲和力。在 31,728 个完整病毒基因组上，人畜共患病预测模块达到 AUROC 0.95。系统已扫描 16,060 个病毒，识别出 33 个高风险（≥90%）人畜共患病病毒，并生成 29,625 个病毒蛋白-药物相互作用预测。该平台免费开放，但其临床验证和实时监测效能仍有待评估。

1. 背景：人畜共患病监测的挑战

能够跨越物种屏障从动物宿主传播到人类的人畜共患病病毒，对全球健康构成持续且不可预测的威胁。COVID-19 大流行造成的社会 disruption 提醒我们，大多数新兴人类病原体——包括冠状病毒、丝状病毒和流感病毒——都源于动物。理论上，新型动物病毒的基因组测序可以确定其感染人类的潜力；然而实践中，实验室宿主范围测定是资源密集且回顾性的过程。

计算模型的发展经历了从高度专业化到泛化的演进。早期工具（如 HostPredictor、Flu-CNN）在特定病毒家族（如禽流感病毒）上达到 0.95-0.99 的 AUC，但适用范围狭窄。随后出现的泛病毒系统（如 VIDHOP、BiLSTM-VHP）扩展了应用范围，但往往以牺牲长程序列上下文为代价。近期，Evo 2 等大规模基础模型可处理百万级核苷酸上下文，但故意排除人类病原体训练数据以防滥用，这限制了其直接用于宿主预测的能力。

在此背景下，VirSentAI 被开发为占据这一精确生态位的系统——一个处理文本、DNA 和蛋白质序列以及药物 SMILES 的三 AI 模型智能体。它通过微调 HyenaDNA 架构，利用大规模预训练扫描完整病毒基因组，标记最可能感染人类的病毒，并自动触发下游治疗模块进行药物重定位。

2. 技术架构与方法

2.1 三模态智能体架构

VirSentAI 采用三阶段智能体工作流，每个阶段使用专门优化的 AI 架构处理不同类型的数据：

第一阶段：使用 MedGemma（medgemma-4b-it-Q8_0）大型语言模型解析非结构化的 NCBI 提交记录，提取关键元信息并校正宿主信息
第二阶段：使用 virsentai-v2-hyena-dna-16k 模型，这是一个微调的 HyenaDNA 架构，能够处理长达 160,000 碱基的完整病毒基因组，捕获与人类嗜性相关的长程依赖关系
第三阶段：使用 PLAPT（Protein-Ligand Affinity Prediction Transformer）模型，基于 ProtBERT 蛋白质嵌入和 ChemBERTa 药物嵌入，计算病毒蛋白与 ChEMBL 批准药物的亲和力

2.2 病毒哨兵层与数据流

系统的数据流始于 NCBI Nucleotide API，自动扫描新发布的完整病毒 DNA 序列。值得注意的是，系统选择直接使用 NCBI 而非 RefSeq，以优先获取最新提交的病毒序列，避免因专家策展流程引入延迟。

获取的序列经过 MedGemma 文本处理后，输入 HyenaDNA 模型计算人畜共患病分数。对于分数超过 90% 的病毒，系统自动提取 NCBI 中的病毒蛋白序列，并与 ChEMBL 的 FDA 批准药物 SMILES 一起输入 PLAPT 模型计算相互作用亲和力。所有数据存储在 SQLite 数据库中，经 Python 脚本处理后生成 JSON/CSV 摘要，最终通过网页界面展示为表格、动态图表和病毒-蛋白-药物相互作用网络。

2.3 模型训练细节

核心预测模型 virsentai-v2-hyena-dna-16k 基于 HyenaDNA-medium-160k-seqlen-hf 微调，使用 31,728 个完整病毒基因组（来自 NCBI、VirusHostDB 和 BV-BRC），严格平衡人类与非人类宿主标签以减轻分类偏差。模型训练 15 个 epoch，使用 16 位混合精度和 AdamW 优化器。为在单张 24GB NVIDIA GPU 上管理内存需求，采用 batch size 2 配合 8 步梯度累积，有效模拟更大 batch size。整个 150 小时训练过程在典型学术研究基础设施约束下完成。

3. 模型性能与监测结果

3.1 预测性能

在 31,728 个完整病毒基因组上的严格交叉验证中，VirSentAI 展现出稳健的分类能力，达到 AUROC 0.9496 和整体准确率 0.8724。这些指标使其在领域内处于竞争力水平，与报告 AUC 0.95-0.99 的领先模型（如 HostPredictor、Flu-CNN）相当。

值得注意的是，VirSentAI 的核心架构优势在于能够处理完整病毒基因组作为单一连续序列，捕获局部突变特征和跨基因组的长程依赖关系——这些上下文在依赖片段或特征工程的方法中经常丢失。

模型	核心方法	适用范围	性能 (AUC/ACC)
HostPredictor	梯度提升集成	禽流感病毒	AUC = 0.95
Flu-CNN	1D CNN	甲型流感病毒	ACC = 0.99
VIDHOP	深度神经网络	狂犬病毒、轮状病毒	AUC = 0.93-0.98
VirSentAI	HyenaDNA	全病毒谱系	AUC = 0.95, ACC = 0.87

3.2 实际监测结果

截至当前日期，VirSentAI 已扫描 16,060 个病毒（包括新病毒和宿主未知的病毒），其中 33 个被预测具有 ≥90% 的人畜共患病风险。系统基于预测人畜共患病概率 ≥80% 的病毒，生成了 29,625 个病毒蛋白-药物 PLAPT 相互作用亲和力预测（亲和力 ≥8.0）。网页界面使用更严格的过滤条件（人畜共患病分数 ≥90%，PLAPT 亲和力 ≥10.0）展示统计数据。

Top 10 高风险病毒包括：Isavirus salaris（鲑鱼病毒，98.15%）、Longquan virus（蝙蝠/食虫动物/啮齿动物病毒，98.00%）、Choristoneura fumiferana entomopoxvirus（97.90%）、Influenza B virus（乙型流感病毒，97.58%）等。值得注意的是，部分预测结果涉及非哺乳动物宿主病毒（如藻类病毒、昆虫病毒），其生物学合理性值得进一步探讨。

4. 讨论

4.1 技术贡献与意义

VirSentAI 代表了多模态智能体在人畜共患病监测中的创新应用。其三阶段架构（文本-基因组-化学）展示了整合异构数据类型的可行性，填补了专业化工具与泛化基础模型之间的空白。

HyenaDNA 长上下文架构的应用证明了处理完整病毒基因组（而非片段）在捕获宿主适应性信号方面的价值。系统的计算效率（1.2 亿参数，单 GPU 训练）使其在学术机构资源约束下具有可操作性，而开放科学实践（代码和平台免费开放）有助于降低全球健康监测的准入门槛。

4.2 局限与待验证问题

尽管技术架构令人鼓舞，本研究存在若干重要待验证之处：

缺乏湿实验验证：论文未报告任何预测病毒的实验室宿主范围验证，无法确认模型的实际预测准确性
训练数据质量风险：依赖公共数据库注释，可能存在标签噪声和采样偏差
上下文长度限制：160k 碱基限制无法处理更大病毒基因组（如痘病毒 ~300k）
部分预测结果生物学合理性存疑：Top 10 中包含藻类病毒和昆虫病毒，其人畜共患病潜力需要更多证据支持
实时监测效能未知：系统部署后的实际预警效果和时效性有待评估
与公共卫生系统的整合缺失：论文未讨论如何将监测结果有效传达给公共卫生决策者

4.3 与相关工作的比较

与近期发表的 Fleming（抗生素设计智能体）和 Latent-Y（生物制剂设计智能体）相比，VirSentAI 展示了多模态智能体框架在不同生物医学领域的适用性。三者的共同特点是将专业 AI 模型与 LLM 协调层结合，实现端到端工作流；差异在于应用领域和数据模态。

与 HostPredictor、Flu-CNN 等专业化工具相比，VirSentAI 的优势在于泛化至全病毒谱系，劣势在于准确率略低且未经实验验证。与 Evo 2 等基础模型相比，VirSentAI 专门针对人畜共患病预测微调，而 Evo 2 因安全考虑排除人类病原体训练数据。

5. 结论

VirSentAI 作为自主多模态人畜共患病监测智能体，展示了整合文本、基因组和化学数据的端到端架构可行性。其 0.95 的 AUROC 和 160k 碱基长上下文处理能力表明，HyenaDNA 架构在病毒基因组分析中具有应用潜力。

然而，缺乏湿实验验证、预测阈值的生物学依据不足、以及实时监测的实际效能未知，严重限制了当前对其公共卫生价值的判断。未来研究应优先进行：

预测病毒的实验室宿主范围验证
与公共卫生机构的预警系统集成测试
历史疫情回顾性验证以评估实际预警时效性

只有在完成这些验证后，VirSentAI 才能从研究原型转化为可操作的大流行防范工具。

参考资料

Munteanu CR, Vázquez-Naya JM, Tejera E. Viral Sentry AI (VirSentAI) - Automated Zoonotic Surveillance & Drug Repurposing Agent. bioRxiv. 2025. DOI: 10.64898/2025.12.29.684576
代码仓库: https://github.com/muntisa/virsentai
平台: https://muntisa.github.io/virsentai
相关模型: HyenaDNA, MedGemma, PLAPT, Evo 2
对比工具: HostPredictor, VIDHOP, BiLSTM-VHP, Flu-CNN
相关智能体: Fleming (Harvard) - 抗生素设计, Latent-Y (Latent Labs) - 生物制剂设计

← 返回博客列表