基因組語言模型：機遇與挑戰並存的跨尺度建模探索

原文：Benegas et al., arXiv:2407.11435v2
機構：加州大學伯克利分校

摘要

基因組語言模型（genomic Language Models, gLMs）作為將自然語言處理技術應用於DNA序列分析的新興領域，正逐步展現其在功能約束預測、序列設計和遷移學習等方面的潛力。然而，與蛋白質語言模型相比，gLMs面臨基因組規模龐大、功能區域稀疏、跨物種調控邏輯分化等獨特挑戰。本文基於加州大學伯克利分校團隊發表於arXiv的綜述，系統分析gLMs的技術現狀、核心應用及未來發展方向。

一、背景：從蛋白質到基因組的範式遷移

蛋白質語言模型的成功為生物序列分析開闢了新路徑。基於Transformer架構的模型在蛋白質結構預測、變異效應預測等任務中取得了突破性進展，其核心假設在於：數十億年的進化探索了與生命相關的蛋白質序列空間，因此大規模無標籤蛋白質序列數據蘊含豐富的生物學資訊。這一成功自然引出一個問題：類似的語言建模方法能否應用於DNA序列，從而推動基因組學的變革？

然而，將語言模型應用於基因組面臨若干根本性差異：

規模差異：蛋白質是功能明確的單元，長度相對有限；而大多數基因組規模龐大，包含大量非功能區域，功能元件被淹沒在海量背景序列中。
數據可用性：全基因組序列數據的可用性遠不及蛋白質序列——雖然蛋白質數據庫包含數億條序列，但跨生命樹的全基因組序列數量相對稀少，限制了訓練數據中功能重要DNA元件的多樣性。

儘管如此，研究者認為gLMs仍具有巨大潛力，關鍵在於針對基因組特性調整模型架構和訓練策略。

二、核心應用：三類任務的進展與局限

2.1 功能約束預測

gLMs最成熟的應用之一是無監督功能約束預測。其基本邏輯是：參考基因組通常來源於健康個體，相對缺乏有害變異；因此，在這些數據上訓練的模型傾向於給有害變異分配較低概率。通過計算兩個等位基因的對數似然比（Log-Likelihood Ratio, LLR），可以估計它們的相對適應度。

這一方法在植物基因組中取得了顯著成功：

GPN在模式植物擬南芥上實現了最先進的變異效應預測性能，其LLR評分與自然群體中的等位基因頻率相關，儘管模型僅在該物種的單個基因組上訓練。
AgroNT和PlantCaduceus在其他植物物種中也獲得了優異結果。

然而，在人類基因組上，Nucleotide Transformer的LLR表現不及現有基線；而GPN-MSA通過利用跨脊椎動物的全基因組多序列比對（MSA）取得了競爭性能。值得注意的是，觀察到的核苷酸分佈不僅受功能約束驅動，還受突變偏倚影響；將這一資訊顯式納入功能約束預測是未來研究的有前景方向。

2.2 序列設計

基於因果語言模型（CLM）的序列生成是gLMs的另一重要應用。通過給定序列片段（prompt或control tag）遞歸預測下一個token，模型可以生成全新序列。

調控序列設計方面，regLM基於HyenaDNA模型實現了啟動子和增強子序列的從頭生成，通過前置control tag可以設計在特定細胞類型中驅動高或低表達的啟動子序列。

更複雜的任務中，EVO模型被用於設計新型CRISPR-Cas系統。大規模DNA序列設計（如染色體或基因組級別）代表了更具雄心的目標：

EVO生成了約6.5億鹼基對的20條序列，具有現實的編碼序列密度和合理的蛋白質結構
MegaDNA生成了長達96kb的完整噬菌體基因組

然而，這些嘗試仍面臨挑戰：EVO生成的序列缺乏功能性原核基因組中通常存在的高度保守標記基因，預測蛋白質結構與自然數據庫的匹配有限；獨立評估顯示MegaDNA生成的基因組在序列組成上與自然基因組仍有差距。

2.3 遷移學習

遷移學習是gLMs的第三類應用。通過在原始序列數據上預訓練，gLMs將輸入基因組序列轉化為中間向量表徵（embeddings），這些表徵可被提取並用作其他模型的特徵，或通過微調適配下游任務。

無監督的embedding可視化顯示，模型能夠區分不同類別的基因組元件（如編碼序列、非翻譯區），表明學習到的表徵蘊含生物學相關資訊。

實踐案例包括：

SegmentNT：通過微調Nucleotide Transformer實現了基因和順勢調控元件註釋的最先進性能
AgroNT：在多樣化植物物種上預訓練後，微調預測染色質可及性和基因表達
DNABERT-S：應用對比學習進行宏基因組分箱
IsoFormer：探索了DNA與蛋白質語言模型之間的多模態遷移學習

然而，兩項近期研究評估了多個gLMs在人類基因組預測任務中的表現，發現它們通常未能超越專門設計的模型。這一發現提出了重要問題：在已有高質量標註數據和精心設計的模型的人類遺傳學領域，gLMs能否提供顯著附加價值？

三、技術考量：數據、架構與訓練決策

3.1 數據選擇與質量控制

與NLP和蛋白質領域不同，基因組學缺乏普遍接受的標準化數據集。數據質量控制的複雜性在於：

人類參考基因組中僅約3.3%的鹼基被認為顯著受約束且可能具有功能
典型訓練序列同時包含功能和非功能位點，難以簡單劃分為高質量或低質量樣本

重複序列處理是另一關鍵問題。人類基因組中約50%為重複序列（真核生物中比例普遍較高），但很少有gLM研究提出解決方案（如下採樣或降權），更不用說充分討論這一問題。區分泛化改進與記憶效應需要單獨報告非重複區域的困惑度。

確保數據充足性同樣重要。單一基因組可能不足以訓練大型模型，尤其是當非功能區域被降採樣時。添加同物種序列變異是一種方法，但許多物種（包括人類）個體間變異相對有限。跨物種訓練是更常見的策略，但隨著物種距離增加，調控邏輯的分化速度遠快於蛋白質，可能需要顯式添加物種標識符作為模型輸入。

3.2 架構與學習目標的權衡

gLMs在架構選擇上呈現多樣性：

Transformer及其變體（如BigBird、DNABERT、Nucleotide Transformer）佔據主流
狀態空間模型（SSM）如HyenaDNA、Caduceus、Mamba因其線性時間複雜度在處理長序列方面展現優勢
CNN與Transformer的混合架構也被探索

在分詞策略上，核苷酸級別、重疊k-mer、非重疊k-mer和Byte Pair Encoding（BPE）均有使用。

學習目標方面，掩碼語言建模（MLM）和因果語言建模（CLM）是兩種主要範式：

MLM允許雙向上下文利用，適合表徵學習
CLM支持自回歸生成，適合序列設計

對於功能約束預測，MLM可通過單次查詢計算SNP的LLR，而CLM需要兩次查詢；但CLM更易處理多重替換、插入和缺失，MLM則需借助更昂貴的偽LLR方法。

長程交互建模是基因組特有的挑戰。增強子-啟動子接觸可跨越數十萬鹼基，如何確定合適的感受野大小尚無定論。多尺度架構（如MEGABYTE的分層Transformer）和高效注意力機制（如FlashAttention）是應對方向，但基因組尺度的建模（數十億鹼基對）仍超出當前方法的能力範圍。

四、評估挑戰：基準測試的困境

評估gLMs面臨多重困難：

功能約束預測需要大規模功能實驗數據（如飽和誘變）來驗證預測，但這類數據稀缺且存在循環驗證風險。

序列設計的測試集困惑度可能無法可靠指示模型的設計效用，需要綜合考察生成序列的組成、基序模式和預測功能活性。Polygraph基準為調控序列設計提出了一系列分析維度，但全基因組或染色體設計任務的評估還需考察必需基因和調控元件的存在與定位，以及它們之間的相互作用。

遷移學習評估的獨特挑戰在於：任何基準集合必須可靠地指示模型在相關任務上的性能。功能基因組學數據（如ENCODE或Roadmap Epigenomics項目）可轉化為基因組區域和變異註釋的預測任務，但當前基準在任務和方法論選擇上存在差異，卻提供了看似冗餘的模型能力洞察。計算基因組學社區需要開發標準化、可擴展且廣泛信任的基準。

五、結論：理性審視"基礎模型"的宣稱

gLMs正處於快速發展期，在功能約束預測、調控序列設計和遷移學習等方向展現了潛力。然而，與"人工智能"一詞可能暗示的魔法式突破不同，gLMs應被視為另一種有用的建模工具，類似於隱馬爾可夫模型剛被引入時的定位。"基礎模型"這一術語暗示了對下游任務性能的實質性改進，但這是經驗問題，而非預訓練模型的固有屬性；在基因組學這一新領域，建立適當基準可能需要相當時間。

早期gLMs多為NLP模型的直接遷移，但深度基因組學專業知識的進一步融入可能帶來最大回報。評估gLMs能力具有挑戰性，因為指標可能產生誤導，尤其是當過度優化時。NLP的優勢在於人類是自然語言專家，可以校準基準以匹配專業判斷；而在基因組學中，必須依賴數據和專家知識來證偽模型，這一方面使問題更具挑戰性，也凸顯了與領域專家合作和為基準開發而進行刻意實驗的必要性。

                未來研究的關鍵問題
                如何最佳建模從基序到基因再到全基因組的跨尺度模式？
哪些應用需要建模長程交互以及如何確定感受野大小？
如何將結構變異納入gLMs？
如何利用群體遺傳學數據？
如何最佳整合轉錄組學和表觀遺傳學數據？
擴展假設在gLMs中是否成立、能持續多久？

            

這些問題的解答將決定gLMs能否從有前景的工具發展為基因組學研究的支柱。

參考資料：
[1] Benegas G, Ye C, Albors C, et al. Genomic Language Models: Opportunities and Challenges. arXiv preprint arXiv:2407.11435v2, 2024.

← 返回博客列表