[ PROMPT_NODE_26462 ]
effective_genome_sizes
[ SKILL_DOCUMENTATION ]
# 有效基因组大小 (Effective Genome Sizes)
## 定义
有效基因组大小是指“可映射”基因组的长度,即可以被测序读段唯一映射的区域。该指标对于 deepTools 中许多命令的正确归一化至关重要。
## 重要性
- RPGC 归一化所必需 (`--normalizeUsing RPGC`)
- 影响覆盖度计算的准确性
- 必须与您的数据处理方法(过滤后 vs 未过滤读段)相匹配
## 计算方法
1. **非 N 碱基**: 基因组序列中非 N 核苷酸的计数
2. **唯一可映射性**: 可以被唯一映射的特定大小区域(可能考虑编辑距离)
## 常见物种数值
### 使用非 N 碱基法
| 物种 | 程序集 | 有效大小 | 完整命令 |
|----------|----------|----------------|--------------|
| 人类 | GRCh38/hg38 | 2,913,022,398 | `--effectiveGenomeSize 2913022398` |
| 人类 | GRCh37/hg19 | 2,864,785,220 | `--effectiveGenomeSize 2864785220` |
| 小鼠 | GRCm39/mm39 | 2,654,621,837 | `--effectiveGenomeSize 2654621837` |
| 小鼠 | GRCm38/mm10 | 2,652,783,500 | `--effectiveGenomeSize 2652783500` |
| 斑马鱼 | GRCz11 | 1,368,780,147 | `--effectiveGenomeSize 1368780147` |
| 果蝇 | dm6 | 142,573,017 | `--effectiveGenomeSize 142573017` |
| 线虫 | WBcel235/ce11 | 100,286,401 | `--effectiveGenomeSize 100286401` |
| 线虫 | ce10 | 100,258,171 | `--effectiveGenomeSize 100258171` |
### 人类 (GRCh38) 按读段长度划分
对于经过质量过滤的读段,数值随读段长度而变化:
| 读段长度 | 有效大小 |
|-------------|----------------|
| 50bp | ~27 亿 |
| 75bp | ~28 亿 |
| 100bp | ~28 亿 |
| 150bp | ~29 亿 |
| 250bp | ~29 亿 |
### 小鼠 (GRCm38) 按读段长度划分
| 读段长度 | 有效大小 |
|-------------|----------------|
| 50bp | ~23 亿 |
| 75bp | ~25 亿 |
| 100bp | ~26 亿 |
## 在 deepTools 中的使用
有效基因组大小最常用于:
### 带有 RPGC 归一化的 bamCoverage
bash
bamCoverage --bam input.bam --outFileName output.bw
--normalizeUsing RPGC
--effectiveGenomeSize 2913022398
### 带有 RPGC 归一化的 bamCompare
bash
bamCompare -b1 treatment.bam -b2 control.bam
--outFileName comparison.bw
--scaleFactorsMethod RPGC
--effectiveGenomeSize 2913022398
### computeGCBias / correctGCBias
bash
computeGCBias --bamfile input.bam
--effectiveGenomeSize 2913022398
--genome genome.2bit
--fragmentLength