【论文分享】Multimodal Transformer-多尺度基因组学的多模态基础模型

个人推荐指数：⭐️⭐️⭐️

论文简介

这是一篇发表在 Nature Methods（2025年12月）的综述性文章，系统性地回顾了 Transformer 模型在多尺度基因组学中的应用和发展。文章由沙特阿拉伯阿卜杜拉国王科技大学（KAUST）的 Jesper Tegner 团队撰写，全面梳理了从单模态到多模态 Transformer 模型的演进历程，并提出了构建”超级 Transformer”（Super Transformer）的愿景。

文章的核心贡献包括：

系统性分类：将基因组学中的 Transformer 模型分为三个层级（单模态、增强单模态、多模态）
技术综述：详细介绍了 Transformer 在基因组序列、单细胞组学和空间转录组学中的应用
实践指导：提供了四个基于公开数据集的代码教程，涵盖多组学、基因组序列、单细胞和空间转录组分析
未来展望：提出了构建模块化”超级 Transformer”的架构设想，用于整合异质性模态数据

这篇综述不仅是对当前 Transformer 在基因组学应用的全面总结，更为未来的多模态基础模型发展提供了清晰的路线图。

Transformer 在基因组学中的三个层级

文章将基因组学中的 Transformer 模型分为三个递进的层级：

层级 1：单模态基础模型

单模态 Transformer 模型专注于单一数据类型的分析，是基础模型的起点。

基因组序列模型：

DNABERT：使用 BERT 架构处理 DNA 序列，通过 k-mer 分词策略将序列转换为 token
Nucleotide Transformer：在 3000 亿个核苷酸上预训练，学习基因组的通用表示
HyenaDNA：使用长卷积算子处理长达 100 万碱基对的序列，突破了传统 Transformer 的长度限制
Caduceus：双向 Mamba 模型，结合了 RNN 的效率和 Transformer 的表达能力

单细胞组学模型：

scBERT：将基因表达谱视为”句子”，基因作为”单词”，使用 BERT 架构学习细胞表示
scGPT：在 3300 万个细胞上预训练，支持细胞类型注释、批次校正和基因扰动预测
Geneformer：将细胞视为基因的有序序列，按表达量排序后输入 Transformer
scFoundation：在 5000 万个细胞上预训练，是目前规模最大的单细胞基础模型之一

空间转录组学模型：

Hist2ST：从组织学图像预测空间基因表达
BLEEP：整合图像和基因表达数据，学习空间上下文

这些单模态模型通过自监督学习（如掩码语言建模 MLM）在大规模数据上预训练，学习到数据的内在模式和结构，为下游任务提供强大的特征表示。

层级 2：增强单模态模型

增强单模态模型在单一输入模态的基础上，能够预测其他模态的信息，展示了跨模态学习的能力。

从序列预测功能：

DeepSEA：从 DNA 序列预测染色质特征和转录因子结合位点
Basenji：使用 CNN 从序列预测基因表达和染色质可及性
Enformer：引入 Transformer 的自注意力机制，预测远距离增强子-启动子相互作用
UTR-LM：解码 mRNA 5’ UTR 的调控功能，预测翻译效率
Evo：70 亿参数的基因组基础模型，能够预测突变的功能影响并设计 CRISPR-Cas 系统

从单细胞数据预测空间信息：

一些模型能够从 scRNA-seq 数据推断空间位置信息
结合单细胞和空间数据，克服测序和成像方法的分辨率和覆盖度限制

增强单模态模型的关键在于利用不同模态之间的内在相关性，通过学习一个模态的表示来预测另一个模态的特征。这为真正的多模态整合奠定了基础。

层级 3：多模态基础模型

多模态 Transformer 模型能够同时处理和整合多种数据类型，代表了基因组学 AI 的最前沿。

多组学整合模型：

scMoFormer：整合 scRNA-seq、scATAC-seq 和蛋白质组学数据
SpaDiT：整合单细胞和空间转录组学数据
Nicheformer：学习空间微环境中的细胞-细胞相互作用

结合大语言模型的多模态系统：

CellWhisperer：使用自然语言查询单细胞数据
scInterpreter：将文本处理与分子数据分析结合，提供自然语言接口
ChatNT：结合预训练的 DNA 编码器和英语解码器，创建多模态对话代理
GenePT：从 ChatGPT 构建基因和细胞的基础模型
Cell2Sentence：将基因表达数据转换为”细胞句子”，支持细胞生成、注释和文本生成

这些多模态模型展示了整合异质性数据的强大能力，能够在统一的框架中学习不同模态之间的复杂关系。

Transformer 架构的核心优势

文章深入分析了 Transformer 架构在基因组学中表现优异的原因：

自注意力机制

自注意力机制允许模型动态地关注输入序列中的不同位置，根据任务的重要性对输入进行加权。这种机制能够：

捕获长距离依赖关系：基因组中的调控元件可能相距数千甚至数百万碱基对
学习局部”语法”和语义结构：识别基因组中的功能模式
无需显式指导：通过掩码建模等自监督方法自动学习表示

可扩展性

Transformer 能够扩展到海量数据集和模型规模：

数据规模：可以在数十亿个核苷酸或数千万个细胞上训练
模型规模：从数百万到数十亿参数，遵循类似 NLP 的缩放定律
并行计算：自注意力机制天然支持并行化，充分利用 GPU 加速

鲁棒性和弱归纳偏置

Transformer 对数据集中的噪声和缺失具有较强的鲁棒性，且归纳偏置较弱：

不依赖于特定的数据结构假设
能够从数据中自动学习模式
适应性强，可应用于多种基因组学任务

这些特性使得 Transformer 在基因组学中特别有价值，因为基因组数据的注释和功能元件的知识往往高度不完整。

关键技术挑战与解决方案

文章详细讨论了 Transformer 在基因组学应用中面临的主要挑战及相应的解决方案：

分词策略（Tokenization）

不同的数据类型需要不同的分词策略：

DNA 序列：

单核苷酸：最简单的方法，但可能丢失局部模式
k-mer：捕获局部序列模式，如 DNABERT 使用 6-mer
字节对编码（BPE）：自适应学习最优分词，如 Nucleotide Transformer

单细胞数据：

基因作为 token：将每个基因视为一个词
基因表达值的离散化：将连续表达值转换为离散 token
排序策略：按表达量排序（Geneformer）或保持原始顺序

空间数据：

空间位点作为 token：每个空间位置对应一个 token
图像块（patch）：将组织学图像分割为小块
混合策略：结合空间坐标和基因表达信息

位置编码

位置编码对于保持序列顺序至关重要：

绝对位置编码：

正弦-余弦编码：Transformer 原始论文中的方法
可学习位置嵌入：通过训练学习位置表示

相对位置编码：

更适合基因组学，因为相对位置关系比绝对位置更重要
可以泛化到训练时未见过的序列长度

空间位置编码：

2D 或 3D 坐标编码：用于空间转录组学
图结构编码：捕获细胞-细胞相互作用

可解释性

Transformer 的可解释性是一个持续的挑战：

注意力权重分析：

可视化注意力图，识别重要的基因组区域或基因
但注意力权重是否真正反映模型决策仍有争议

嵌入空间分析：

分析学习到的嵌入向量，理解模型如何表示生物学概念
与变分自编码器相比，Transformer 的嵌入是显式构建的

扰动分析：

通过输入扰动观察输出变化，理解模型的因果关系
类似于生物学中的基因敲除实验

计算效率

自注意力机制的二次复杂度是主要瓶颈：

稀疏注意力：

Longformer、Reformer 等模型使用局部注意力窗口
减少计算量，同时保持长距离建模能力

高效 Transformer：

Linformer：使用低秩近似
Performer：使用核方法
FlashAttention：优化内存访问模式

混合架构：

结合 CNN 和 Transformer：先用 CNN 提取局部特征，再用 Transformer 建模全局依赖
结合图神经网络：利用生物学先验知识构建图结构

“超级 Transformer”的愿景

文章提出了构建模块化”超级 Transformer”的架构设想，用于整合所有基因组学模态：

架构设计

模态特异性编码器：

每个模态（DNA、RNA、蛋白质、图像、空间、文本等）有独立的编码器
将原始数据转换为统一维度的嵌入向量

跨注意力机制：

使用跨注意力（cross-attention）连接不同模态的编码器
允许模态之间的信息交换和对齐

共享表示空间：

所有模态的嵌入投影到共同的潜在空间
学习模态内和模态间的依赖关系

多任务头：

支持多种下游任务：变异效应预测、空间域检测、蛋白质功能注释等
任务特异性的输出层

模块化和可扩展性

新模态的添加：

通过添加新的编码器和注意力接口，轻松扩展到新模态（如代谢组学）
无需重新训练整个模型

生物学知识注入：

将外部知识（如 Cell Ontology、Gene Ontology）嵌入为可学习的 token
通过正则化注意力权重，将结构化知识与数据驱动学习结合

预训练和微调：

在大规模多模态数据上预训练
针对特定任务进行高效微调

计算优化策略

利用生物学特性：

Hi-C 数据指导限制长距离相互作用分析
ATAC-seq 数据去优先化不可及的基因组区域

分布式计算：

模型并行：跨多个 GPU 或集群分布模型
数据并行：批次数据的并行处理

混合架构：

结合 Transformer 和图神经网络
在保持性能的同时提高效率

实践教程

文章提供了四个基于公开数据集的代码教程，所有代码可在 Google Colab 上运行：

教程 1：多组学整合

数据：合成的 DNA 序列和 RNA 表达数据
任务：从 DNA 序列预测 RNA 表达水平
架构：DNA 序列嵌入 + 位置编码 + Transformer 编码器
关键技术：
- DNA 序列编码为数值
- 自注意力机制捕获长距离依赖
- 注意力图可视化，识别关键核苷酸位置

教程 2：基因组序列分析

数据：真实的基因组序列数据
任务：预测转录因子结合位点、染色质状态等
模型：DNABERT、Nucleotide Transformer 等
关键技术：
- k-mer 分词策略
- 掩码语言建模预训练
- 迁移学习到下游任务

教程 3：单细胞基因组学

数据：scRNA-seq 数据集
任务：细胞类型注释、批次校正、基因扰动预测
模型：scGPT、Geneformer 等
关键技术：
- 基因表达值的离散化
- 细胞和基因的联合嵌入
- 零样本学习和少样本学习

教程 4：空间转录组学

数据：空间转录组学数据（如 Visium）
任务：空间域识别、细胞-细胞通讯推断
模型：SpaDiT、Nicheformer 等
关键技术：
- 空间位置编码
- 图结构建模
- 多模态整合（图像 + 基因表达）

所有教程的代码和数据均可在 GitHub 上获取：

教程代码：https://github.com/TranslationalBioinformaticsUnit/Transformers-for-Multiscale-Genomics
论文列表：https://github.com/TranslationalBioinformaticsUnit/TransformersInGenomicsPapers

未来展望

文章对 Transformer 在基因组学中的未来发展提出了几个重要方向：

从专用系统到通用系统

AlphaFold 等专用系统在特定任务上表现卓越
未来的多模态基础模型将向更通用的方向发展
类似于 GPT 在 NLP 中的角色，基因组学也需要通用的基础模型

多尺度系统建模

从 DNA/RNA 序列到细胞、组织、器官的多尺度整合
捕获不同尺度的生物学信息和相互作用
模拟跨尺度的生物系统动态

与系统生物学的重新连接

将基因组学与系统生物学重新连接
将生命系统的调控逻辑嵌入 Transformer 架构
支持更全面的健康和疾病模型

计算-实验伙伴关系

需要社区共同努力评估基础模型
部分实验验证（如 CRISPR 筛选）
计算扰动测试和跨模态一致性检查
社区主导的基准测试（如扩展的 CAGI 挑战）

缩放定律的探索

Evo 等模型展示了类似 NLP 的缩放定律
更大的模型通常带来更好的性能
但预训练任务的选择至关重要
MLM vs NTP：不同任务有不同的缩放行为