前言

Anthropic 近期推出了 Claude for Life Sciences,这是一套专为生命科学研究设计的增强功能。通过 Model Context Protocol (MCP) 连接器和桌面扩展,Claude 可以直接连接到科学家日常使用的数据源和工具,消除了在多个平台之间切换的需要,使研究人员能够获得跨越整个研发生态系统的洞察,从而加速发现进程,同时保持出版级别的科学严谨性。

本文将系统性地介绍 Claude for Life Sciences 的各项功能和集成工具。


相关概念回顾

  1. MCP (Model Context Protocol) - 让 AI 助手连接外部数据和工具的开放通信协议标准
  2. Connectors(连接器) - 基于 MCP 协议,通过云端服务器连接 Claude 与在线应用的远程集成
  3. Extensions(扩展) - 基于 MCP 协议,在本地电脑上运行让 Claude 访问本地资源的桌面工具
  4. Skills(技能) - 与 MCP 无关,是教会 Claude 处理特定任务的可复用指令包

关系总结:MCP 是底层协议,Connectors 和 Extensions 都是基于 MCP 构建的具体实现,而 Skills 是独立的功能概念。


科学研究与发现连接器(MCP)

Claude for Life Sciences 提供了多个专业连接器,覆盖文献检索、数据管理、实验记录、科学绘图等多个领域。

PubMed

PubMed 连接器将 Claude 直接连接到美国国家医学图书馆维护的 PubMed 数据库,包含超过 3600 万条生物医学文献引用。核心能力包括:使用关键词搜索研究文章、获取文章元数据、访问 PubMed Central 全文、查找相关文章、匹配引用到 PubMed ID 等。该连接器对所有 Claude 用户免费,数据每日更新。

Scholar Gateway

Scholar Gateway 由 Wiley 提供,可访问超过 300 万篇期刊文章,其中包括超过 300 种生命科学期刊。它提供基于同行评审来源的 AI 响应,带有可验证的引用和 DOI 链接,确保 AI 辅助研究符合专业研究标准。需要 Wiley 期刊订阅。

Synapse.org

Synapse.org 连接器由 Sage Bionetworks 提供,允许研究人员在整个 Synapse 平台上发现生物医学数据,查看项目结构,并为授权用户检索数据资产信息。需要注册 Synapse 账户(免费)。

Benchling

Benchling 连接器将 Claude 链接到 Benchling 研发平台数据,使科学家能够提出问题并获得清晰的摘要,同时链接回源实验、笔记本和结构化记录。可搜索实验结果、笔记本内容、结构化记录,并可引入公共文献来源。需要 Benchling AI 在租户中启用。

BioRender

BioRender 连接器搜索 BioRender 广泛的科学图形模板和图标集合,帮助更快地创建图形。可访问 50,000+ 经过验证的科学图标,涵盖生命科学所有领域,以及专业设计的图形模板。需要活跃的 BioRender 账户。


10x Genomics 扩展:单细胞和空间分析

10x Genomics 集成将单细胞和空间分析转变为简单的对话式工作流程。除了 10x Genomics 的 Cloud Analysis Web 应用和命令行工具外,用户还可以通过 AI 驱动的对话式界面分析数据。大语言模型 (LLM) 使用 10x Cloud MCP 服务器将用户的文字请求转换为 10x Cloud 应用上的操作。

支持的产品和数据类型

目前支持以下 10x Chromium 单细胞数据的 FASTQ 文件:

  • Universal 3’ Gene Expression
  • Universal 5’ Gene Expression
  • Flex Gene Expression

安装方式

  • Claude Desktop 用户:
  1. 下载 Claude Desktop 应用
  2. 在 Settings > Extensions > Browse extensions 中查找 10x Genomics Cloud MCP 扩展
  3. 点击 Install 并按提示操作
  4. 输入 10x Cloud Access Token(可在 10x Cloud Account Settings 的 Security 部分找到)
  5. 将开关从 Disabled 切换到 Enabled
  • Claude Code 用户:
    1
    2
    /plugin marketplace add anthropics/life-sciences
    /plugin install 10x-genomics@life-sciences

提示词最佳实践

在构建对话提示时,具体性非常重要。建议在提示中包含以下信息:

  1. 数据集信息:物种(如 human、mouse)、样本类型(如 cells 或 nuclei、疾病状态)、实验设置(如样本制备、重复、实验条件)
  2. 产品信息:产品系列(如 Universal 3’ Gene Expression、Flex Gene Expression)、模态(如 gene expression、cell multiplexing、antibody、CRISPR)、样本复杂度(单样本 vs 多样本)、文库类型(如 GEM-X 3’ Gene Expression v4)
  3. 分析信息:要运行的 pipeline(如 count、multi、aggr)、特定参数(如是否创建 BAM 文件)

使用场景示例

Cell Ranger count 分析

1
2
3
4
5
6
创建一个名为 "first-mcp-project" 的新项目。我要运行的分析命名为 "3p-GEX-count"。
我有一个人类单细胞 Universal 3' Gene Expression 样本,包含 2 个测序 lane。
文库和化学类型是 NextGEM 3' Gene Expression v3。

要上传到 Cloud 的 FASTQ 文件在这个文件夹:
/Users/<user.name>/Desktop/3pGEX-count。我想运行 Cell Ranger count pipeline。

Cell Ranger multi 分析

1
2
3
我要运行的分析命名为 "Flex-GEX-multi",添加到现有项目 "first-claude-mcp-CR-9-flex"。
我有一个人类单细胞核 Flex Gene Expression 样本,包含 2 个测序 lane。
文库和化学类型是 GEM-X Flex Gene Expression。

批量处理多个样本

1
2
3
我电脑上 /Users/<path>/<directory> 路径下有很多样本数据。
你能把所有 FASTQ 文件上传到一个新项目,并同时启动所有样本的 Cell Ranger count 分析吗?
请根据样本名称推断正确的 Cell Ranger 分析类型,并在创建分析前请求我的确认。

专业技能:单细胞 RNA 质控 (single-cell-rna-qc)

single-cell-rna-qc 是 Anthropic 为 Claude 开发的一项专业技能,使 Claude 能够对单细胞 RNA-seq 数据执行质量控制。该技能遵循 scverse 生态系统 (https://scverse.org/)的最佳实践,采用基于 MAD (Median Absolute Deviation) 的过滤方法和全面的可视化功能。

技能概述

该技能专为以下用户设计:

  • 生物信息学家和计算生物学家
  • 单细胞基因组学研究人员
  • 需要快速评估数据质量的数据科学家

支持的输入格式:

  • .h5ad 文件:来自 scanpy/Python 工作流的 AnnData 格式
  • .h5 文件:10X Genomics Cell Ranger 输出

项目文件结构

该技能的源代码托管在 anthropics/life-sciences 仓库中,目录结构如下:

1
2
3
4
5
6
7
8
single-cell-rna-qc/
├── SKILL.md # 技能说明文档,定义何时使用此技能及使用方法
├── scripts/ # Python 脚本目录
│ ├── qc_analysis.py # 完整 QC 工作流的便捷脚本(主入口)
│ ├── qc_core.py # 核心 QC 功能函数库
│ └── qc_plotting.py # 可视化绑图函数库
└── references/ # 参考文档目录
└── scverse_qc_guidelines.md # scverse QC 方法论和参数说明

核心脚本介绍

qc_analysis.py - 主入口脚本

这是一个完整的 QC 工作流脚本,整合了 qc_core.py 和 qc_plotting.py 的功能。支持的命令行参数包括:

参数 默认值 说明
--output-dir <input>_qc_results 输出目录
--mad-counts 5 total counts 的 MAD 阈值
--mad-genes 5 gene counts 的 MAD 阈值
--mad-mt 3 线粒体百分比的 MAD 阈值
--mt-threshold 8 线粒体百分比硬阈值
--min-cells 20 基因过滤的最小细胞数
--mt-pattern mt-,MT- 线粒体基因前缀模式
--ribo-pattern Rpl,Rps,RPL,RPS 核糖体基因前缀模式
--hb-pattern `^Hb[^(p)] ^HB[^(P)]`

qc_core.py - 核心功能函数

  • calculate_qc_metrics() : 计算 QC 指标(counts、genes、MT%、ribo%、HB%),注释到 adata
  • detect_outliers_mad() : 基于 MAD 的异常值检测,返回布尔掩码
  • apply_hard_threshold() : 应用硬阈值过滤,支持 >, <, >=, <= 操作符
  • filter_cells() : 根据布尔掩码过滤细胞
  • filter_genes() : 按最小细胞数或最小 counts 过滤基因
  • print_qc_summary() : 打印 QC 摘要统计信息

qc_plotting.py - 可视化函数

  • plot_qc_distributions() : 生成 3x3 综合 QC 图(直方图、小提琴图、散点图)
  • plot_filtering_thresholds() : 可视化 MAD 过滤阈值,显示通过/未通过 QC 的细胞分布
  • plot_qc_after_filtering() : 生成过滤后的 2x3 QC 图

输出内容

运行完整 Pipeline 后,技能会生成以下文件:

  • qc_metrics_before_filtering.png:过滤前的 QC 可视化
  • qc_filtering_thresholds.png:基于 MAD 的阈值叠加图
  • qc_metrics_after_filtering.png:过滤后的质量指标
  • *_filtered.h5ad:干净的过滤后数据集,可直接用于下游分析
  • *_with_qc.h5ad:保留 QC 注释的原始数据

安装方式

Claude Code 用户:

1
2
/plugin marketplace add anthropics/life-sciences
/plugin install single-cell-rna-qc@life-sciences

Claude.ai 用户:

  1. 访问 https://github.com/anthropics/life-sciences/releases
  2. 下载最新的 single-cell-rna-qc ZIP 文件
  3. 在 Claude.ai 中导航到 Settings > Capabilities > Skills
  4. 点击 Upload skill 并上传 ZIP 文件

总结

Claude for Life Sciences 代表了 AI 在生命科学领域应用的重要进展。通过整合 PubMed、Scholar Gateway、Synapse.org、Benchling、BioRender、10x Genomics 等专业工具,以及 single-cell-rna-qc 等专业技能,Claude 为研究人员提供了一个统一的平台,能够加速文献综述、简化数据管理、提升可视化效率、自动化分析流程。随着更多连接器和功能的加入,Claude for Life Sciences 将继续推动生命科学研究的数字化转型。


参考链接