基因组语言模型：机遇与挑战并存的跨尺度建模探索

原文：Benegas et al., arXiv:2407.11435v2
机构：加州大学伯克利分校

摘要

基因组语言模型（genomic Language Models, gLMs）作为将自然语言处理技术应用于DNA序列分析的新兴领域，正逐步展现其在功能约束预测、序列设计和迁移学习等方面的潜力。然而，与蛋白质语言模型相比，gLMs面临基因组规模庞大、功能区域稀疏、跨物种调控逻辑分化等独特挑战。本文基于加州大学伯克利分校团队发表于arXiv的综述，系统分析gLMs的技术现状、核心应用及未来发展方向。

一、背景：从蛋白质到基因组的范式迁移

蛋白质语言模型的成功为生物序列分析开辟了新路径。基于Transformer架构的模型在蛋白质结构预测、变异效应预测等任务中取得了突破性进展，其核心假设在于：数十亿年的进化探索了与生命相关的蛋白质序列空间，因此大规模无标签蛋白质序列数据蕴含丰富的生物学信息。这一成功自然引出一个问题：类似的语言建模方法能否应用于DNA序列，从而推动基因组学的变革？

然而，将语言模型应用于基因组面临若干根本性差异：

规模差异：蛋白质是功能明确的单元，长度相对有限；而大多数基因组规模庞大，包含大量非功能区域，功能元件被淹没在海量背景序列中。
数据可用性：全基因组序列数据的可用性远不及蛋白质序列——虽然蛋白质数据库包含数亿条序列，但跨生命树的全基因组序列数量相对稀少，限制了训练数据中功能重要DNA元件的多样性。

尽管如此，研究者认为gLMs仍具有巨大潜力，关键在于针对基因组特性调整模型架构和训练策略。

二、核心应用：三类任务的进展与局限

2.1 功能约束预测

gLMs最成熟的应用之一是无监督功能约束预测。其基本逻辑是：参考基因组通常来源于健康个体，相对缺乏有害变异；因此，在这些数据上训练的模型倾向于给有害变异分配较低概率。通过计算两个等位基因的对数似然比（Log-Likelihood Ratio, LLR），可以估计它们的相对适应度。

这一方法在植物基因组中取得了显著成功：

GPN在模式植物拟南芥上实现了最先进的变异效应预测性能，其LLR评分与自然群体中的等位基因频率相关，尽管模型仅在该物种的单个基因组上训练。
AgroNT和PlantCaduceus在其他植物物种中也获得了优异结果。

然而，在人类基因组上，Nucleotide Transformer的LLR表现不及现有基线；而GPN-MSA通过利用跨脊椎动物的全基因组多序列比对（MSA）取得了竞争性能。值得注意的是，观察到的核苷酸分布不仅受功能约束驱动，还受突变偏倚影响；将这一信息显式纳入功能约束预测是未来研究的有前景方向。

2.2 序列设计

基于因果语言模型（CLM）的序列生成是gLMs的另一重要应用。通过给定序列片段（prompt或control tag）递归预测下一个token，模型可以生成全新序列。

调控序列设计方面，regLM基于HyenaDNA模型实现了启动子和增强子序列的从头生成，通过前置control tag可以设计在特定细胞类型中驱动高或低表达的启动子序列。

更复杂的任务中，EVO模型被用于设计新型CRISPR-Cas系统。大规模DNA序列设计（如染色体或基因组级别）代表了更具雄心的目标：

EVO生成了约6.5亿碱基对的20条序列，具有现实的编码序列密度和合理的蛋白质结构
MegaDNA生成了长达96kb的完整噬菌体基因组

然而，这些尝试仍面临挑战：EVO生成的序列缺乏功能性原核基因组中通常存在的高度保守标记基因，预测蛋白质结构与自然数据库的匹配有限；独立评估显示MegaDNA生成的基因组在序列组成上与自然基因组仍有差距。

2.3 迁移学习

迁移学习是gLMs的第三类应用。通过在原始序列数据上预训练，gLMs将输入基因组序列转化为中间向量表征（embeddings），这些表征可被提取并用作其他模型的特征，或通过微调适配下游任务。

无监督的embedding可视化显示，模型能够区分不同类别的基因组元件（如编码序列、非翻译区），表明学习到的表征蕴含生物学相关信息。

实践案例包括：

SegmentNT：通过微调Nucleotide Transformer实现了基因和顺势调控元件注释的最先进性能
AgroNT：在多样化植物物种上预训练后，微调预测染色质可及性和基因表达
DNABERT-S：应用对比学习进行宏基因组分箱
IsoFormer：探索了DNA与蛋白质语言模型之间的多模态迁移学习

然而，两项近期研究评估了多个gLMs在人类基因组预测任务中的表现，发现它们通常未能超越专门设计的模型。这一发现提出了重要问题：在已有高质量标注数据和精心设计的模型的人类遗传学领域，gLMs能否提供显著附加价值？

三、技术考量：数据、架构与训练决策

3.1 数据选择与质量控制

与NLP和蛋白质领域不同，基因组学缺乏普遍接受的标准化数据集。数据质量控制的复杂性在于：

人类参考基因组中仅约3.3%的碱基被认为显著受约束且可能具有功能
典型训练序列同时包含功能和非功能位点，难以简单划分为高质量或低质量样本

重复序列处理是另一关键问题。人类基因组中约50%为重复序列（真核生物中比例普遍较高），但很少有gLM研究提出解决方案（如下采样或降权），更不用说充分讨论这一问题。区分泛化改进与记忆效应需要单独报告非重复区域的困惑度。

确保数据充足性同样重要。单一基因组可能不足以训练大型模型，尤其是当非功能区域被降采样时。添加同物种序列变异是一种方法，但许多物种（包括人类）个体间变异相对有限。跨物种训练是更常见的策略，但随着物种距离增加，调控逻辑的分化速度远快于蛋白质，可能需要显式添加物种标识符作为模型输入。

3.2 架构与学习目标的权衡

gLMs在架构选择上呈现多样性：

Transformer及其变体（如BigBird、DNABERT、Nucleotide Transformer）占据主流
状态空间模型（SSM）如HyenaDNA、Caduceus、Mamba因其线性时间复杂度在处理长序列方面展现优势
CNN与Transformer的混合架构也被探索

在分词策略上，核苷酸级别、重叠k-mer、非重叠k-mer和Byte Pair Encoding（BPE）均有使用。

学习目标方面，掩码语言建模（MLM）和因果语言建模（CLM）是两种主要范式：

MLM允许双向上下文利用，适合表征学习
CLM支持自回归生成，适合序列设计

对于功能约束预测，MLM可通过单次查询计算SNP的LLR，而CLM需要两次查询；但CLM更易处理多重替换、插入和缺失，MLM则需借助更昂贵的伪LLR方法。

长程交互建模是基因组特有的挑战。增强子-启动子接触可跨越数十万碱基，如何确定合适的感受野大小尚无定论。多尺度架构（如MEGABYTE的分层Transformer）和高效注意力机制（如FlashAttention）是应对方向，但基因组尺度的建模（数十亿碱基对）仍超出当前方法的能力范围。

四、评估挑战：基准测试的困境

评估gLMs面临多重困难：

功能约束预测需要大规模功能实验数据（如饱和诱变）来验证预测，但这类数据稀缺且存在循环验证风险。

序列设计的测试集困惑度可能无法可靠指示模型的设计效用，需要综合考察生成序列的组成、基序模式和预测功能活性。Polygraph基准为调控序列设计提出了一系列分析维度，但全基因组或染色体设计任务的评估还需考察必需基因和调控元件的存在与定位，以及它们之间的相互作用。

迁移学习评估的独特挑战在于：任何基准集合必须可靠地指示模型在相关任务上的性能。功能基因组学数据（如ENCODE或Roadmap Epigenomics项目）可转化为基因组区域和变异注释的预测任务，但当前基准在任务和方法论选择上存在差异，却提供了看似冗余的模型能力洞察。计算基因组学社区需要开发标准化、可扩展且广泛信任的基准。

五、结论：理性审视"基础模型"的宣称

gLMs正处于快速发展期，在功能约束预测、调控序列设计和迁移学习等方向展现了潜力。然而，与"人工智能"一词可能暗示的魔法式突破不同，gLMs应被视为另一种有用的建模工具，类似于隐马尔可夫模型刚被引入时的定位。"基础模型"这一术语暗示了对下游任务性能的实质性改进，但这是经验问题，而非预训练模型的固有属性；在基因组学这一新领域，建立适当基准可能需要相当时间。

早期gLMs多为NLP模型的直接迁移，但深度基因组学专业知识的进一步融入可能带来最大回报。评估gLMs能力具有挑战性，因为指标可能产生误导，尤其是当过度优化时。NLP的优势在于人类是自然语言专家，可以校准基准以匹配专业判断；而在基因组学中，必须依赖数据和专家知识来证伪模型，这一方面使问题更具挑战性，也凸显了与领域专家合作和为基准开发而进行刻意实验的必要性。

                未来研究的关键问题
                如何最佳建模从基序到基因再到全基因组的跨尺度模式？
哪些应用需要建模长程交互以及如何确定感受野大小？
如何将结构变异纳入gLMs？
如何利用群体遗传学数据？
如何最佳整合转录组学和表观遗传学数据？
扩展假设在gLMs中是否成立、能持续多久？

            

这些问题的解答将决定gLMs能否从有前景的工具发展为基因组学研究的支柱。

参考资料：
[1] Benegas G, Ye C, Albors C, et al. Genomic Language Models: Opportunities and Challenges. arXiv preprint arXiv:2407.11435v2, 2024.

← 返回博客列表