[ PROMPT_NODE_26286 ]
census_schema
[ SKILL_DOCUMENTATION ]
# CZ CELLxGENE Census 数据架构参考
## 概述
CZ CELLxGENE Census 是一个基于 TileDB-SOMA 框架构建的单细胞数据版本化集合。本参考文档记录了数据结构、可用的元数据字段及查询语法。
## 高层结构
Census 被组织为 `SOMACollection`,包含两个主要组件:
### 1. census_info
摘要信息,包括:
- **summary**:构建日期、细胞计数、数据集统计信息
- **datasets**:来自 CELLxGENE Discover 的所有数据集及其元数据
- **summary_cell_counts**:按元数据类别分层的细胞计数
### 2. census_data
特定物种的 `SOMAExperiment` 对象:
- **"homo_sapiens"**:人类单细胞数据
- **"mus_musculus"**:小鼠单细胞数据
## 每个物种的数据结构
每个物种实验包含:
### obs (细胞元数据)
以 `SOMADataFrame` 存储的细胞级注释。访问方式:
python
census["census_data"]["homo_sapiens"].obs
### ms["RNA"] (测量数据)
RNA 测量数据,包括:
- **X**:数据矩阵,包含层级:
- `raw`:原始计数数据
- `normalized`:(如果可用)归一化计数
- **var**:基因元数据
- **feature_dataset_presence_matrix**:稀疏布尔数组,显示每个数据集中测量了哪些基因
## 细胞元数据字段 (obs)
### 必需/核心字段
**身份与数据集:**
- `soma_joinid`:用于连接的唯一整数标识符
- `dataset_id`:源数据集标识符
- `is_primary_data`:布尔标志(True = 唯一细胞,False = 跨数据集重复)
**细胞类型:**
- `cell_type`:人类可读的细胞类型名称
- `cell_type_ontology_term_id`:标准化本体术语(例如 "CL:0000236")
**组织:**
- `tissue`:具体组织名称
- `tissue_general`:更广泛的组织类别(用于分组)
- `tissue_ontology_term_id`:标准化本体术语
**测定方法:**
- `assay`:使用的测序技术
- `assay_ontology_term_id`:标准化本体术语
**疾病:**
- `disease`:疾病状态或状况
- `disease_ontology_term_id`:标准化本体术语
**捐赠者:**
- `donor_id`:唯一捐赠者标识符
- `sex`:生物学性别(男、女、未知)
- `self_reported_ethnicity`:种族信息
- `development_stage`:生命阶段(成人、儿童、胚胎等)
- `development_stage_ontology_term_id`:标准化本体术语
**物种:**
- `organism`:学名(Homo sapiens, Mus musculus)
- `organism_ontology_term_id`:标准化本体术语
**技术:**