[ PROMPT_NODE_26284 ]
cellxgene-census
[ SKILL_DOCUMENTATION ]
# CZ CELLxGENE Census
## 概述
CZ CELLxGENE Census 提供了一种程序化访问方式,用于获取来自 CZ CELLxGENE Discover 的标准化单细胞基因组学数据集合(已版本化)。该技能支持对数千个数据集中的数百万个细胞进行高效查询和分析。
Census 包括:
- **6100万+ 个人类和小鼠细胞**
- **标准化元数据**(细胞类型、组织、疾病、捐赠者)
- **原始基因表达**矩阵
- **预计算的嵌入向量**和统计数据
- **与 PyTorch、scanpy 及其他分析工具的集成**
## 何时使用此技能
当需要执行以下操作时,应使用此技能:
- 按细胞类型、组织或疾病查询单细胞表达数据
- 探索可用的单细胞数据集和元数据
- 在单细胞数据上训练机器学习模型
- 执行大规模跨数据集分析
- 将 Census 数据与 scanpy 或其他分析框架集成
- 计算数百万个细胞的统计数据
- 访问预计算的嵌入向量或模型预测
## 安装与设置
安装 Census API:
bash
uv pip install cellxgene-census
对于机器学习工作流,安装额外依赖:
bash
uv pip install cellxgene-census[experimental]
## 核心工作流模式
### 1. 打开 Census
始终使用上下文管理器以确保正确清理资源:
python
import cellxgene_census
# 打开最新稳定版本
with cellxgene_census.open_soma() as census:
# 使用 census 数据
# 打开特定版本以确保可重复性
with cellxgene_census.open_soma(census_version="2023-07-25") as census:
# 使用 census 数据
**关键点:**
- 使用上下文管理器(`with` 语句)进行自动清理
- 指定 `census_version` 以实现可重复分析
- 默认打开最新的“稳定”版本
### 2. 探索 Census 信息
在查询表达数据之前,先探索可用的数据集和元数据。
**访问摘要信息:**
python
# 获取摘要统计信息
summary = census["census_info"]["summary"].read().concat().to_pandas()
print(f"细胞总数: {summary['total_cell_count'][0]}")
# 获取所有数据集
datasets = census["census_info"]["datasets"].read().concat().to_pandas()
# 按条件过滤数据集
covid_datasets = datasets[datasets["disease"].str.contains("COVID", na=False)]
**查询细胞元数据以了解可用数据:**
python
# 获取组织中唯一的细胞类型
cell_metadata = cellxgene_census.ge