[ PROMPT_NODE_26610 ]
common_workflows
[ SKILL_DOCUMENTATION ]
# 常见基因数据库工作流
本文档提供了使用 NCBI Gene 数据库的常见工作流和用例示例。
## 目录
1. [疾病基因发现](#disease-gene-discovery)
2. [基因注释流水线](#gene-annotation-pipeline)
3. [跨物种基因比较](#cross-species-gene-comparison)
4. [通路分析](#pathway-analysis)
5. [变异分析](#variant-analysis)
6. [出版物挖掘](#publication-mining)
---
## 疾病基因发现
### 用例
识别与特定疾病或表型相关的基因。
### 工作流
1. **按疾病名称搜索**
bash
# 查找与阿尔茨海默病相关的基因
python scripts/query_gene.py --search "Alzheimer disease[disease]" --organism human --max-results 50
2. **按染色体位置过滤**
bash
# 查找与乳腺癌相关的 17 号染色体上的基因
python scripts/query_gene.py --search "breast cancer[disease] AND 17[chromosome]" --organism human
3. **检索详细信息**
python
# Python 示例: 获取疾病相关基因的详细信息
import json
from scripts.query_gene import esearch, esummary
# 搜索基因
query = "diabetes[disease] AND human[organism]"
gene_ids = esearch(query, retmax=100, api_key="YOUR_KEY")
# 获取摘要
summaries = esummary(gene_ids, api_key="YOUR_KEY")
# 提取相关信息
for gene_id in gene_ids:
if gene_id in summaries['result']:
gene = summaries['result'][gene_id]
print(f"{gene['name']}: {gene['description']}")
### 预期输出
- 具有疾病关联的基因列表
- 基因符号、描述和染色体位置
- 相关出版物和临床注释
---
## 基因注释流水线
### 用例
使用综合元数据注释基因标识符列表。
### 工作流
1. **准备基因列表**
创建一个包含基因符号的 `genes.txt` 文件(每行一个):
BRCA1
TP53
EGFR
KRAS
2. **批量查询**
bash
python scripts/batch_gene_lookup.py --file genes.txt --organism human --output annotations.json --api-key YOUR_KEY
3. **解析结果**
python
import json
with open('annotations.json', 'r') as f:
genes = json.load(f)
for gene in genes:
if 'gene_id' in gene:
print(f"Symbol: {gene['symbol']}")
print(f"ID: {gene['gene_id']}")
print(f"Description: {gene['description']}")
print(f"Location: chr{gene['chromosome']}:{gene['map_location']}")
p