个人推荐指数:⭐️⭐️⭐️

论文简介

这是一篇发表在 Nature Methods(2025年12月)的综述性文章,系统性地回顾了 Transformer 模型在多尺度基因组学中的应用和发展。文章由沙特阿拉伯阿卜杜拉国王科技大学(KAUST)的 Jesper Tegner 团队撰写,全面梳理了从单模态到多模态 Transformer 模型的演进历程,并提出了构建”超级 Transformer”(Super Transformer)的愿景。

文章的核心贡献包括:

  • 系统性分类:将基因组学中的 Transformer 模型分为三个层级(单模态、增强单模态、多模态)
  • 技术综述:详细介绍了 Transformer 在基因组序列、单细胞组学和空间转录组学中的应用
  • 实践指导:提供了四个基于公开数据集的代码教程,涵盖多组学、基因组序列、单细胞和空间转录组分析
  • 未来展望:提出了构建模块化”超级 Transformer”的架构设想,用于整合异质性模态数据

这篇综述不仅是对当前 Transformer 在基因组学应用的全面总结,更为未来的多模态基础模型发展提供了清晰的路线图。


Transformer 在基因组学中的三个层级

文章将基因组学中的 Transformer 模型分为三个递进的层级:

层级 1:单模态基础模型

单模态 Transformer 模型专注于单一数据类型的分析,是基础模型的起点。

基因组序列模型

  • DNABERT:使用 BERT 架构处理 DNA 序列,通过 k-mer 分词策略将序列转换为 token
  • Nucleotide Transformer:在 3000 亿个核苷酸上预训练,学习基因组的通用表示
  • HyenaDNA:使用长卷积算子处理长达 100 万碱基对的序列,突破了传统 Transformer 的长度限制
  • Caduceus:双向 Mamba 模型,结合了 RNN 的效率和 Transformer 的表达能力

单细胞组学模型

  • scBERT:将基因表达谱视为”句子”,基因作为”单词”,使用 BERT 架构学习细胞表示
  • scGPT:在 3300 万个细胞上预训练,支持细胞类型注释、批次校正和基因扰动预测
  • Geneformer:将细胞视为基因的有序序列,按表达量排序后输入 Transformer
  • scFoundation:在 5000 万个细胞上预训练,是目前规模最大的单细胞基础模型之一

空间转录组学模型

  • Hist2ST:从组织学图像预测空间基因表达
  • BLEEP:整合图像和基因表达数据,学习空间上下文

这些单模态模型通过自监督学习(如掩码语言建模 MLM)在大规模数据上预训练,学习到数据的内在模式和结构,为下游任务提供强大的特征表示。

层级 2:增强单模态模型

增强单模态模型在单一输入模态的基础上,能够预测其他模态的信息,展示了跨模态学习的能力。

从序列预测功能

  • DeepSEA:从 DNA 序列预测染色质特征和转录因子结合位点
  • Basenji:使用 CNN 从序列预测基因表达和染色质可及性
  • Enformer:引入 Transformer 的自注意力机制,预测远距离增强子-启动子相互作用
  • UTR-LM:解码 mRNA 5’ UTR 的调控功能,预测翻译效率
  • Evo:70 亿参数的基因组基础模型,能够预测突变的功能影响并设计 CRISPR-Cas 系统

从单细胞数据预测空间信息

  • 一些模型能够从 scRNA-seq 数据推断空间位置信息
  • 结合单细胞和空间数据,克服测序和成像方法的分辨率和覆盖度限制

增强单模态模型的关键在于利用不同模态之间的内在相关性,通过学习一个模态的表示来预测另一个模态的特征。这为真正的多模态整合奠定了基础。

层级 3:多模态基础模型

多模态 Transformer 模型能够同时处理和整合多种数据类型,代表了基因组学 AI 的最前沿。

多组学整合模型

  • scMoFormer:整合 scRNA-seq、scATAC-seq 和蛋白质组学数据
  • SpaDiT:整合单细胞和空间转录组学数据
  • Nicheformer:学习空间微环境中的细胞-细胞相互作用

结合大语言模型的多模态系统

  • CellWhisperer:使用自然语言查询单细胞数据
  • scInterpreter:将文本处理与分子数据分析结合,提供自然语言接口
  • ChatNT:结合预训练的 DNA 编码器和英语解码器,创建多模态对话代理
  • GenePT:从 ChatGPT 构建基因和细胞的基础模型
  • Cell2Sentence:将基因表达数据转换为”细胞句子”,支持细胞生成、注释和文本生成

这些多模态模型展示了整合异质性数据的强大能力,能够在统一的框架中学习不同模态之间的复杂关系。


Transformer 架构的核心优势

文章深入分析了 Transformer 架构在基因组学中表现优异的原因:

自注意力机制

自注意力机制允许模型动态地关注输入序列中的不同位置,根据任务的重要性对输入进行加权。这种机制能够:

  • 捕获长距离依赖关系:基因组中的调控元件可能相距数千甚至数百万碱基对
  • 学习局部”语法”和语义结构:识别基因组中的功能模式
  • 无需显式指导:通过掩码建模等自监督方法自动学习表示

可扩展性

Transformer 能够扩展到海量数据集和模型规模:

  • 数据规模:可以在数十亿个核苷酸或数千万个细胞上训练
  • 模型规模:从数百万到数十亿参数,遵循类似 NLP 的缩放定律
  • 并行计算:自注意力机制天然支持并行化,充分利用 GPU 加速

鲁棒性和弱归纳偏置

Transformer 对数据集中的噪声和缺失具有较强的鲁棒性,且归纳偏置较弱:

  • 不依赖于特定的数据结构假设
  • 能够从数据中自动学习模式
  • 适应性强,可应用于多种基因组学任务

这些特性使得 Transformer 在基因组学中特别有价值,因为基因组数据的注释和功能元件的知识往往高度不完整。


关键技术挑战与解决方案

文章详细讨论了 Transformer 在基因组学应用中面临的主要挑战及相应的解决方案:

分词策略(Tokenization)

不同的数据类型需要不同的分词策略:

DNA 序列

  • 单核苷酸:最简单的方法,但可能丢失局部模式
  • k-mer:捕获局部序列模式,如 DNABERT 使用 6-mer
  • 字节对编码(BPE):自适应学习最优分词,如 Nucleotide Transformer

单细胞数据

  • 基因作为 token:将每个基因视为一个词
  • 基因表达值的离散化:将连续表达值转换为离散 token
  • 排序策略:按表达量排序(Geneformer)或保持原始顺序

空间数据

  • 空间位点作为 token:每个空间位置对应一个 token
  • 图像块(patch):将组织学图像分割为小块
  • 混合策略:结合空间坐标和基因表达信息

位置编码

位置编码对于保持序列顺序至关重要:

绝对位置编码

  • 正弦-余弦编码:Transformer 原始论文中的方法
  • 可学习位置嵌入:通过训练学习位置表示

相对位置编码

  • 更适合基因组学,因为相对位置关系比绝对位置更重要
  • 可以泛化到训练时未见过的序列长度

空间位置编码

  • 2D 或 3D 坐标编码:用于空间转录组学
  • 图结构编码:捕获细胞-细胞相互作用

可解释性

Transformer 的可解释性是一个持续的挑战:

注意力权重分析

  • 可视化注意力图,识别重要的基因组区域或基因
  • 但注意力权重是否真正反映模型决策仍有争议

嵌入空间分析

  • 分析学习到的嵌入向量,理解模型如何表示生物学概念
  • 与变分自编码器相比,Transformer 的嵌入是显式构建的

扰动分析

  • 通过输入扰动观察输出变化,理解模型的因果关系
  • 类似于生物学中的基因敲除实验

计算效率

自注意力机制的二次复杂度是主要瓶颈:

稀疏注意力

  • Longformer、Reformer 等模型使用局部注意力窗口
  • 减少计算量,同时保持长距离建模能力

高效 Transformer

  • Linformer:使用低秩近似
  • Performer:使用核方法
  • FlashAttention:优化内存访问模式

混合架构

  • 结合 CNN 和 Transformer:先用 CNN 提取局部特征,再用 Transformer 建模全局依赖
  • 结合图神经网络:利用生物学先验知识构建图结构

“超级 Transformer”的愿景

文章提出了构建模块化”超级 Transformer”的架构设想,用于整合所有基因组学模态:

架构设计

模态特异性编码器

  • 每个模态(DNA、RNA、蛋白质、图像、空间、文本等)有独立的编码器
  • 将原始数据转换为统一维度的嵌入向量

跨注意力机制

  • 使用跨注意力(cross-attention)连接不同模态的编码器
  • 允许模态之间的信息交换和对齐

共享表示空间

  • 所有模态的嵌入投影到共同的潜在空间
  • 学习模态内和模态间的依赖关系

多任务头

  • 支持多种下游任务:变异效应预测、空间域检测、蛋白质功能注释等
  • 任务特异性的输出层

模块化和可扩展性

新模态的添加

  • 通过添加新的编码器和注意力接口,轻松扩展到新模态(如代谢组学)
  • 无需重新训练整个模型

生物学知识注入

  • 将外部知识(如 Cell Ontology、Gene Ontology)嵌入为可学习的 token
  • 通过正则化注意力权重,将结构化知识与数据驱动学习结合

预训练和微调

  • 在大规模多模态数据上预训练
  • 针对特定任务进行高效微调

计算优化策略

利用生物学特性

  • Hi-C 数据指导限制长距离相互作用分析
  • ATAC-seq 数据去优先化不可及的基因组区域

分布式计算

  • 模型并行:跨多个 GPU 或集群分布模型
  • 数据并行:批次数据的并行处理

混合架构

  • 结合 Transformer 和图神经网络
  • 在保持性能的同时提高效率

实践教程

文章提供了四个基于公开数据集的代码教程,所有代码可在 Google Colab 上运行:

教程 1:多组学整合

  • 数据:合成的 DNA 序列和 RNA 表达数据
  • 任务:从 DNA 序列预测 RNA 表达水平
  • 架构:DNA 序列嵌入 + 位置编码 + Transformer 编码器
  • 关键技术:
    • DNA 序列编码为数值
    • 自注意力机制捕获长距离依赖
    • 注意力图可视化,识别关键核苷酸位置

教程 2:基因组序列分析

  • 数据:真实的基因组序列数据
  • 任务:预测转录因子结合位点、染色质状态等
  • 模型:DNABERT、Nucleotide Transformer 等
  • 关键技术:
    • k-mer 分词策略
    • 掩码语言建模预训练
    • 迁移学习到下游任务

教程 3:单细胞基因组学

  • 数据:scRNA-seq 数据集
  • 任务:细胞类型注释、批次校正、基因扰动预测
  • 模型:scGPT、Geneformer 等
  • 关键技术:
    • 基因表达值的离散化
    • 细胞和基因的联合嵌入
    • 零样本学习和少样本学习

教程 4:空间转录组学

  • 数据:空间转录组学数据(如 Visium)
  • 任务:空间域识别、细胞-细胞通讯推断
  • 模型:SpaDiT、Nicheformer 等
  • 关键技术:
    • 空间位置编码
    • 图结构建模
    • 多模态整合(图像 + 基因表达)

所有教程的代码和数据均可在 GitHub 上获取:


未来展望

文章对 Transformer 在基因组学中的未来发展提出了几个重要方向:

从专用系统到通用系统

  • AlphaFold 等专用系统在特定任务上表现卓越
  • 未来的多模态基础模型将向更通用的方向发展
  • 类似于 GPT 在 NLP 中的角色,基因组学也需要通用的基础模型

多尺度系统建模

  • 从 DNA/RNA 序列到细胞、组织、器官的多尺度整合
  • 捕获不同尺度的生物学信息和相互作用
  • 模拟跨尺度的生物系统动态

与系统生物学的重新连接

  • 将基因组学与系统生物学重新连接
  • 将生命系统的调控逻辑嵌入 Transformer 架构
  • 支持更全面的健康和疾病模型

计算-实验伙伴关系

  • 需要社区共同努力评估基础模型
  • 部分实验验证(如 CRISPR 筛选)
  • 计算扰动测试和跨模态一致性检查
  • 社区主导的基准测试(如扩展的 CAGI 挑战)

缩放定律的探索

  • Evo 等模型展示了类似 NLP 的缩放定律
  • 更大的模型通常带来更好的性能
  • 但预训练任务的选择至关重要
  • MLM vs NTP:不同任务有不同的缩放行为

相关链接