摘要

VirSentAI 是由西班牙拉科魯尼亞大學等機構開發的自主三模態智能體,旨在彌合病毒出現與治療響應之間的差距。該系統通過 MedGemma 大型語言模型解析非結構化提交記錄,利用微調 HyenaDNA 模型(v2-hyena-dna-16k)處理長達 160,000 鹼基的完整病毒基因組以預測人類感染性,並通過 PLAPT 模型計算病毒蛋白與已批准藥物的親和力。在 31,728 個完整病毒基因組上,人畜共患病預測模塊達到 AUROC 0.95。系統已掃描 16,060 個病毒,識別出 33 個高風險(≥90%)人畜共患病病毒,並生成 29,625 個病毒蛋白-藥物相互作用預測。該平台免費開放,但其臨床驗證和實時監測效能仍有待評估。

1. 背景:人畜共患病監測的挑戰

能夠跨越物種屏障從動物宿主傳播到人類的人畜共患病病毒,對全球健康構成持續且不可預測的威脅。COVID-19 大流行造成的社會 disruption 提醒我們,大多數新興人類病原體——包括冠狀病毒、絲狀病毒和流感病毒——都源於動物。理論上,新型動物病毒的基因組測序可以確定其感染人類的潛力;然而實踐中,實驗室宿主範圍測定是資源密集且回顧性的過程。

計算模型的發展經歷了從高度專業化到泛化的演進。早期工具(如 HostPredictor、Flu-CNN)在特定病毒家族(如禽流感病毒)上達到 0.95-0.99 的 AUC,但適用範圍狹窄。隨後出現的泛病毒系統(如 VIDHOP、BiLSTM-VHP)擴展了應用範圍,但往往以犧牲長程序列上下文為代價。近期,Evo 2 等大規模基座模型可處理百萬級核苷酸上下文,但故意排除人類病原體訓練數據以防濫用,這限制了其直接用於宿主預測的能力。

在此背景下,VirSentAI 被開發為佔據這一精確生態位的系統——一個處理文本、DNA 和蛋白質序列以及藥物 SMILES 的三 AI 模型智能體。它通過微調 HyenaDNA 架構,利用大規模預訓練掃描完整病毒基因組,標記最可能感染人類的病毒,並自動觸發下游治療模塊進行藥物重定位。

2. 技術架構與方法

2.1 三模態智能體架構

VirSentAI 採用三階段智能體工作流,每個階段使用專門優化的 AI 架構處理不同類型的數據:

2.2 病毒哨兵層與數據流

系統的數據流始於 NCBI Nucleotide API,自動掃描新發布的完整病毒 DNA 序列。值得注意的是,系統選擇直接使用 NCBI 而非 RefSeq,以優先獲取最新提交的病毒序列,避免因專家策展流程引入延遲。

獲取的序列經過 MedGemma 文本處理後,輸入 HyenaDNA 模型計算人畜共患病分數。對於分數超過 90% 的病毒,系統自動提取 NCBI 中的病毒蛋白序列,並與 ChEMBL 的 FDA 批准藥物 SMILES 一起輸入 PLAPT 模型計算相互作用親和力。所有數據存儲在 SQLite 數據庫中,經 Python 腳本處理後生成 JSON/CSV 摘要,最終通過網頁界面展示為表格、動態圖表和病毒-蛋白-藥物相互作用網絡。

2.3 模型訓練細節

核心預測模型 virsentai-v2-hyena-dna-16k 基於 HyenaDNA-medium-160k-seqlen-hf 微調,使用 31,728 個完整病毒基因組(來自 NCBI、VirusHostDB 和 BV-BRC),嚴格平衡人類與非人類宿主標籤以減輕分類偏差。模型訓練 15 個 epoch,使用 16 位混合精度和 AdamW 優化器。為在單張 24GB NVIDIA GPU 上管理內存需求,採用 batch size 2 配合 8 步梯度累積,有效模擬更大 batch size。整個 150 小時訓練過程在典型學術研究基礎設施約束下完成。

3. 模型性能與監測結果

3.1 預測性能

在 31,728 個完整病毒基因組上的嚴格交叉驗證中,VirSentAI 展現出穩健的分類能力,達到 AUROC 0.9496 和整體準確率 0.8724。這些指標使其在領域內處於競爭力水平,與報告 AUC 0.95-0.99 的領先模型(如 HostPredictor、Flu-CNN)相當。

值得注意的是,VirSentAI 的核心架構優勢在於能夠處理完整病毒基因組作為單一連續序列,捕獲局部突變特徵和跨基因組的長程依賴關係——這些上下文在依賴片段或特徵工程的方法中經常丟失。

模型 核心方法 適用範圍 性能 (AUC/ACC)
HostPredictor 梯度提升集成 禽流感病毒 AUC = 0.95
Flu-CNN 1D CNN 甲型流感病毒 ACC = 0.99
VIDHOP 深度神經網絡 狂犬病毒、輪狀病毒 AUC = 0.93-0.98
VirSentAI HyenaDNA 全病毒譜系 AUC = 0.95, ACC = 0.87

3.2 實際監測結果

截至當前日期,VirSentAI 已掃描 16,060 個病毒(包括新病毒和宿主未知的病毒),其中 33 個被預測具有 ≥90% 的人畜共患病風險。系統基於預測人畜共患病概率 ≥80% 的病毒,生成了 29,625 個病毒蛋白-藥物 PLAPT 相互作用親和力預測(親和力 ≥8.0)。網頁界面使用更嚴格的過濾條件(人畜共患病分數 ≥90%,PLAPT 親和力 ≥10.0)展示統計數據。

Top 10 高風險病毒包括:Isavirus salaris(鮭魚病毒,98.15%)、Longquan virus(蝙蝠/食蟲動物/齧齒動物病毒,98.00%)、Choristoneura fumiferana entomopoxvirus(97.90%)、Influenza B virus(乙型流感病毒,97.58%)等。值得注意的是,部分預測結果涉及非哺乳動物宿主病毒(如藻類病毒、昆蟲病毒),其生物學合理性值得進一步探討。

4. 討論

4.1 技術貢獻與意義

VirSentAI 代表了多模態智能體在人畜共患病監測中的創新應用。其三階段架構(文本-基因組-化學)展示了整合異構數據類型的可行性,填補了專業化工具與泛化基座模型之間的空白。

HyenaDNA 長上下文架構的應用證明了處理完整病毒基因組(而非片段)在捕獲宿主適應性信號方面的價值。系統的計算效率(1.2 億參數,單 GPU 訓練)使其在學術機構資源約束下具有可操作性,而開放科學實踐(代碼和平台免費開放)有助於降低全球健康監測的准入門檻。

4.2 局限與待驗證問題

儘管技術架構令人鼓舞,本研究存在若干重要待驗證之處:

4.3 與相關工作的比較

與近期發表的 Fleming(抗生素設計智能體)和 Latent-Y(生物製劑設計智能體)相比,VirSentAI 展示了多模態智能體框架在不同生物醫學領域的適用性。三者的共同特點是將專業 AI 模型與 LLM 協調層結合,實現端到端工作流;差異在於應用領域和數據模態。與 HostPredictor、Flu-CNN 等專業化工具相比,VirSentAI 的優勢在於泛化至全病毒譜系,劣勢在於準確率略低且未經實驗驗證。與 Evo 2 等基座模型相比,VirSentAI 專門針對人畜共患病預測微調,而 Evo 2 因安全考慮排除人類病原體訓練數據。

5. 結論

VirSentAI 作為自主多模態人畜共患病監測智能體,展示了整合文本、基因組和化學數據的端到端架構可行性。其 0.95 的 AUROC 和 160k 鹼基長上下文處理能力表明,HyenaDNA 架構在病毒基因組分析中具有應用潛力。

然而,缺乏濕實驗驗證、預測閾值的生物學依據不足、以及實時監測的實際效能未知,嚴重限制了當前對其公共衛生價值的判斷。未來研究應優先進行:

  1. 預測病毒的實驗室宿主範圍驗證
  2. 與公共衛生機構的預警系統集成測試
  3. 歷史疫情回顧性驗證以評估實際預警時效性

只有在完成這些驗證後,VirSentAI 才能從研究原型轉化為可操作的大流行防範工具。

參考資料

  • Munteanu CR, Vázquez-Naya JM, Tejera E. Viral Sentry AI (VirSentAI) - Automated Zoonotic Surveillance & Drug Repurposing Agent. bioRxiv. 2025. DOI: 10.64898/2025.12.29.684576
  • 代碼倉庫: https://github.com/muntisa/virsentai
  • 平台: https://muntisa.github.io/virsentai
  • 相關模型: HyenaDNA, MedGemma, PLAPT, Evo 2
  • 對比工具: HostPredictor, VIDHOP, BiLSTM-VHP, Flu-CNN
  • 相關智能體: Fleming (Harvard) - 抗生素設計, Latent-Y (Latent Labs) - 生物製劑設計
← 返回博客列表