VirSentAI：人畜共患病監測與藥物重定位的自主多模態智能體

摘要

VirSentAI 是由西班牙拉科魯尼亞大學等機構開發的自主三模態智能體，旨在彌合病毒出現與治療響應之間的差距。該系統通過 MedGemma 大型語言模型解析非結構化提交記錄，利用微調 HyenaDNA 模型（v2-hyena-dna-16k）處理長達 160,000 鹼基的完整病毒基因組以預測人類感染性，並通過 PLAPT 模型計算病毒蛋白與已批准藥物的親和力。在 31,728 個完整病毒基因組上，人畜共患病預測模塊達到 AUROC 0.95。系統已掃描 16,060 個病毒，識別出 33 個高風險（≥90%）人畜共患病病毒，並生成 29,625 個病毒蛋白-藥物相互作用預測。該平台免費開放，但其臨床驗證和實時監測效能仍有待評估。

1. 背景：人畜共患病監測的挑戰

能夠跨越物種屏障從動物宿主傳播到人類的人畜共患病病毒，對全球健康構成持續且不可預測的威脅。COVID-19 大流行造成的社會 disruption 提醒我們，大多數新興人類病原體——包括冠狀病毒、絲狀病毒和流感病毒——都源於動物。理論上，新型動物病毒的基因組測序可以確定其感染人類的潛力；然而實踐中，實驗室宿主範圍測定是資源密集且回顧性的過程。

計算模型的發展經歷了從高度專業化到泛化的演進。早期工具（如 HostPredictor、Flu-CNN）在特定病毒家族（如禽流感病毒）上達到 0.95-0.99 的 AUC，但適用範圍狹窄。隨後出現的泛病毒系統（如 VIDHOP、BiLSTM-VHP）擴展了應用範圍，但往往以犧牲長程序列上下文為代價。近期，Evo 2 等大規模基座模型可處理百萬級核苷酸上下文，但故意排除人類病原體訓練數據以防濫用，這限制了其直接用於宿主預測的能力。

在此背景下，VirSentAI 被開發為佔據這一精確生態位的系統——一個處理文本、DNA 和蛋白質序列以及藥物 SMILES 的三 AI 模型智能體。它通過微調 HyenaDNA 架構，利用大規模預訓練掃描完整病毒基因組，標記最可能感染人類的病毒，並自動觸發下游治療模塊進行藥物重定位。

2. 技術架構與方法

2.1 三模態智能體架構

VirSentAI 採用三階段智能體工作流，每個階段使用專門優化的 AI 架構處理不同類型的數據：

第一階段：使用 MedGemma（medgemma-4b-it-Q8_0）大型語言模型解析非結構化的 NCBI 提交記錄，提取關鍵元信息並校正宿主信息
第二階段：使用 virsentai-v2-hyena-dna-16k 模型，這是一個微調的 HyenaDNA 架構，能夠處理長達 160,000 鹼基的完整病毒基因組，捕獲與人類嗜性相關的長程依賴關係
第三階段：使用 PLAPT（Protein-Ligand Affinity Prediction Transformer）模型，基於 ProtBERT 蛋白質嵌入和 ChemBERTa 藥物嵌入，計算病毒蛋白與 ChEMBL 批准藥物的親和力

2.2 病毒哨兵層與數據流

系統的數據流始於 NCBI Nucleotide API，自動掃描新發布的完整病毒 DNA 序列。值得注意的是，系統選擇直接使用 NCBI 而非 RefSeq，以優先獲取最新提交的病毒序列，避免因專家策展流程引入延遲。

獲取的序列經過 MedGemma 文本處理後，輸入 HyenaDNA 模型計算人畜共患病分數。對於分數超過 90% 的病毒，系統自動提取 NCBI 中的病毒蛋白序列，並與 ChEMBL 的 FDA 批准藥物 SMILES 一起輸入 PLAPT 模型計算相互作用親和力。所有數據存儲在 SQLite 數據庫中，經 Python 腳本處理後生成 JSON/CSV 摘要，最終通過網頁界面展示為表格、動態圖表和病毒-蛋白-藥物相互作用網絡。

2.3 模型訓練細節

核心預測模型 virsentai-v2-hyena-dna-16k 基於 HyenaDNA-medium-160k-seqlen-hf 微調，使用 31,728 個完整病毒基因組（來自 NCBI、VirusHostDB 和 BV-BRC），嚴格平衡人類與非人類宿主標籤以減輕分類偏差。模型訓練 15 個 epoch，使用 16 位混合精度和 AdamW 優化器。為在單張 24GB NVIDIA GPU 上管理內存需求，採用 batch size 2 配合 8 步梯度累積，有效模擬更大 batch size。整個 150 小時訓練過程在典型學術研究基礎設施約束下完成。

3. 模型性能與監測結果

3.1 預測性能

在 31,728 個完整病毒基因組上的嚴格交叉驗證中，VirSentAI 展現出穩健的分類能力，達到 AUROC 0.9496 和整體準確率 0.8724。這些指標使其在領域內處於競爭力水平，與報告 AUC 0.95-0.99 的領先模型（如 HostPredictor、Flu-CNN）相當。

值得注意的是，VirSentAI 的核心架構優勢在於能夠處理完整病毒基因組作為單一連續序列，捕獲局部突變特徵和跨基因組的長程依賴關係——這些上下文在依賴片段或特徵工程的方法中經常丟失。

模型	核心方法	適用範圍	性能 (AUC/ACC)
HostPredictor	梯度提升集成	禽流感病毒	AUC = 0.95
Flu-CNN	1D CNN	甲型流感病毒	ACC = 0.99
VIDHOP	深度神經網絡	狂犬病毒、輪狀病毒	AUC = 0.93-0.98
VirSentAI	HyenaDNA	全病毒譜系	AUC = 0.95, ACC = 0.87

3.2 實際監測結果

截至當前日期，VirSentAI 已掃描 16,060 個病毒（包括新病毒和宿主未知的病毒），其中 33 個被預測具有 ≥90% 的人畜共患病風險。系統基於預測人畜共患病概率 ≥80% 的病毒，生成了 29,625 個病毒蛋白-藥物 PLAPT 相互作用親和力預測（親和力 ≥8.0）。網頁界面使用更嚴格的過濾條件（人畜共患病分數 ≥90%，PLAPT 親和力 ≥10.0）展示統計數據。

Top 10 高風險病毒包括：Isavirus salaris（鮭魚病毒，98.15%）、Longquan virus（蝙蝠/食蟲動物/齧齒動物病毒，98.00%）、Choristoneura fumiferana entomopoxvirus（97.90%）、Influenza B virus（乙型流感病毒，97.58%）等。值得注意的是，部分預測結果涉及非哺乳動物宿主病毒（如藻類病毒、昆蟲病毒），其生物學合理性值得進一步探討。

4. 討論

4.1 技術貢獻與意義

VirSentAI 代表了多模態智能體在人畜共患病監測中的創新應用。其三階段架構（文本-基因組-化學）展示了整合異構數據類型的可行性，填補了專業化工具與泛化基座模型之間的空白。

HyenaDNA 長上下文架構的應用證明了處理完整病毒基因組（而非片段）在捕獲宿主適應性信號方面的價值。系統的計算效率（1.2 億參數，單 GPU 訓練）使其在學術機構資源約束下具有可操作性，而開放科學實踐（代碼和平台免費開放）有助於降低全球健康監測的准入門檻。

4.2 局限與待驗證問題

儘管技術架構令人鼓舞，本研究存在若干重要待驗證之處：

缺乏濕實驗驗證：論文未報告任何預測病毒的實驗室宿主範圍驗證，無法確認模型的實際預測準確性
訓練數據質量風險：依賴公共數據庫註釋，可能存在標籤噪聲和採樣偏差
上下文長度限制：160k 鹼基限制無法處理更大病毒基因組（如痘病毒 ~300k）
部分預測結果生物學合理性存疑：Top 10 中包含藻類病毒和昆蟲病毒，其人畜共患病潛力需要更多證據支持
實時監測效能未知：系統部署後的實際預警效果和時效性有待評估
與公共衛生系統的整合缺失：論文未討論如何將監測結果有效傳達給公共衛生決策者

4.3 與相關工作的比較

與近期發表的 Fleming（抗生素設計智能體）和 Latent-Y（生物製劑設計智能體）相比，VirSentAI 展示了多模態智能體框架在不同生物醫學領域的適用性。三者的共同特點是將專業 AI 模型與 LLM 協調層結合，實現端到端工作流；差異在於應用領域和數據模態。與 HostPredictor、Flu-CNN 等專業化工具相比，VirSentAI 的優勢在於泛化至全病毒譜系，劣勢在於準確率略低且未經實驗驗證。與 Evo 2 等基座模型相比，VirSentAI 專門針對人畜共患病預測微調，而 Evo 2 因安全考慮排除人類病原體訓練數據。

5. 結論

VirSentAI 作為自主多模態人畜共患病監測智能體，展示了整合文本、基因組和化學數據的端到端架構可行性。其 0.95 的 AUROC 和 160k 鹼基長上下文處理能力表明，HyenaDNA 架構在病毒基因組分析中具有應用潛力。

然而，缺乏濕實驗驗證、預測閾值的生物學依據不足、以及實時監測的實際效能未知，嚴重限制了當前對其公共衛生價值的判斷。未來研究應優先進行：

預測病毒的實驗室宿主範圍驗證
與公共衛生機構的預警系統集成測試
歷史疫情回顧性驗證以評估實際預警時效性

只有在完成這些驗證後，VirSentAI 才能從研究原型轉化為可操作的大流行防範工具。

參考資料

Munteanu CR, Vázquez-Naya JM, Tejera E. Viral Sentry AI (VirSentAI) - Automated Zoonotic Surveillance & Drug Repurposing Agent. bioRxiv. 2025. DOI: 10.64898/2025.12.29.684576
代碼倉庫: https://github.com/muntisa/virsentai
平台: https://muntisa.github.io/virsentai
相關模型: HyenaDNA, MedGemma, PLAPT, Evo 2
對比工具: HostPredictor, VIDHOP, BiLSTM-VHP, Flu-CNN
相關智能體: Fleming (Harvard) - 抗生素設計, Latent-Y (Latent Labs) - 生物製劑設計

← 返回博客列表