[ PROMPT_NODE_26284 ]

cellxgene-census

[ SKILL_DOCUMENTATION ]

# CZ CELLxGENE Census ## 概述 CZ CELLxGENE Census 提供了一种程序化访问方式，用于获取来自 CZ CELLxGENE Discover 的标准化单细胞基因组学数据集合（已版本化）。该技能支持对数千个数据集中的数百万个细胞进行高效查询和分析。 Census 包括： - **6100万+ 个人类和小鼠细胞** - **标准化元数据**（细胞类型、组织、疾病、捐赠者） - **原始基因表达**矩阵 - **预计算的嵌入向量**和统计数据 - **与 PyTorch、scanpy 及其他分析工具的集成** ## 何时使用此技能当需要执行以下操作时，应使用此技能： - 按细胞类型、组织或疾病查询单细胞表达数据 - 探索可用的单细胞数据集和元数据 - 在单细胞数据上训练机器学习模型 - 执行大规模跨数据集分析 - 将 Census 数据与 scanpy 或其他分析框架集成 - 计算数百万个细胞的统计数据 - 访问预计算的嵌入向量或模型预测 ## 安装与设置安装 Census API： bash uv pip install cellxgene-census 对于机器学习工作流，安装额外依赖： bash uv pip install cellxgene-census[experimental] ## 核心工作流模式 ### 1. 打开 Census 始终使用上下文管理器以确保正确清理资源： python import cellxgene_census # 打开最新稳定版本 with cellxgene_census.open_soma() as census: # 使用 census 数据 # 打开特定版本以确保可重复性 with cellxgene_census.open_soma(census_version="2023-07-25") as census: # 使用 census 数据 **关键点：** - 使用上下文管理器（`with` 语句）进行自动清理 - 指定 `census_version` 以实现可重复分析 - 默认打开最新的“稳定”版本 ### 2. 探索 Census 信息在查询表达数据之前，先探索可用的数据集和元数据。 **访问摘要信息：** python # 获取摘要统计信息 summary = census["census_info"]["summary"].read().concat().to_pandas() print(f"细胞总数: {summary['total_cell_count'][0]}") # 获取所有数据集 datasets = census["census_info"]["datasets"].read().concat().to_pandas() # 按条件过滤数据集 covid_datasets = datasets[datasets["disease"].str.contains("COVID", na=False)] **查询细胞元数据以了解可用数据：** python # 获取组织中唯一的细胞类型 cell_metadata = cellxgene_census.ge

数据来源：claude-code-templates（MIT），中文翻译由 AI 生成。详见关于我们。

BAGUA AI