[ PROMPT_NODE_26618 ]
consensus_peaks
[ SKILL_DOCUMENTATION ]
# 共识峰 (Consensus Peaks): Universe 构建
## 概述
Geniml 提供了用于构建基因组“universes”的工具——即从 BED 文件集合中提取标准化的共识峰参考集。这些 universes 代表了分析数据集显示出显著覆盖重叠的基因组区域,作为分词和分析的参考词汇表。
## 何时使用
在以下情况使用共识峰创建:
- 从多个实验构建参考峰集
- 为 Region2Vec 或 BEDspace 分词创建 universe 文件
- 标准化跨数据集的基因组区域
- 定义具有统计学意义的感兴趣区域
## 工作流
### 第 1 步:合并 BED 文件
将所有 BED 文件合并为一个单一文件:
bash
cat /path/to/bed/files/*.bed > combined_files.bed
### 第 2 步:生成覆盖轨道
使用带有平滑窗口的 uniwig 创建 bigWig 覆盖轨道:
bash
uniwig -m 25 combined_files.bed chrom.sizes coverage/
**参数:**
- `-m 25`:平滑窗口大小(染色质可及性通常为 25bp)
- `chrom.sizes`:基因组染色体大小文件
- `coverage/`:bigWig 文件的输出目录
平滑窗口有助于减少噪声并创建更稳健的峰边界。
### 第 3 步:构建 Universe
使用四种方法之一构建共识峰:
## Universe 构建方法
### 1. 覆盖截止 (Coverage Cutoff, CC)
使用固定覆盖阈值的最简单方法:
bash
geniml universe build cc
--coverage-folder coverage/
--output-file universe_cc.bed
--cutoff 5
--merge 100
--filter-size 50
**参数:**
- `--cutoff`:覆盖阈值(1 = 并集;文件数 = 交集)
- `--merge`:合并相邻峰的距离 (bp)
- `--filter-size`:包含的最小峰大小 (bp)
**适用场景:** 简单的基于阈值的选择即可满足需求时
### 2. 灵活覆盖截止 (Coverage Cutoff Flexible, CCF)
围绕边界和区域核心的似然截止值创建置信区间:
bash
geniml universe build ccf
--coverage-folder coverage/
--output-file universe_ccf.bed
--cutoff 5
--confidence 0.95
--merge 100
--filter-size 50
**附加参数:**
- `--confidence`:灵活边界的置信水平 (0-1)
**适用场景:** 需要捕获峰边界不确定性时
### 3. 最大似然 (Maximum Likelihood, ML)
构建考虑区域起始/结束位置的概率模型:
bash
geniml universe build ml
--coverage-