[ PROMPT_NODE_26606 ]
gene-database
[ SKILL_DOCUMENTATION ]
# 基因数据库
## 概述
NCBI Gene 是一个综合性数据库,整合了来自不同物种的基因信息。它提供命名法、参考序列 (RefSeqs)、染色体图谱、生物通路、遗传变异、表型以及全球基因组资源的交叉引用。
## 何时使用此技能
当处理基因数据时,包括按基因符号或 ID 搜索、检索基因序列和元数据、分析基因功能和通路,或执行批量基因查询时,应使用此技能。
## 快速入门
NCBI 提供两个主要 API 用于访问基因数据:
1. **E-utilities** (传统): 功能齐全的 API,适用于所有 Entrez 数据库,查询灵活
2. **NCBI Datasets API** (较新): 针对基因数据检索进行了优化,工作流更简化
对于复杂查询和跨数据库搜索,请选择 E-utilities。对于需要单次请求获取元数据和序列的直接基因数据检索,请选择 Datasets API。
## 常见工作流
### 按符号或名称搜索基因
要在不同生物体中按符号或名称搜索基因:
1. 使用带有 E-utilities ESearch 的 `scripts/query_gene.py` 脚本
2. 指定基因符号和生物体(例如 "BRCA1 in human")
3. 脚本返回匹配的基因 ID
查询模式示例:
- 基因符号: `insulin[gene name] AND human[organism]`
- 疾病相关基因: `dystrophin[gene name] AND muscular dystrophy[disease]`
- 染色体位置: `human[organism] AND 17q21[chromosome]`
### 按 ID 检索基因信息
要获取已知基因 ID 的详细信息:
1. 使用带有 Datasets API 的 `scripts/fetch_gene_data.py` 获取综合数据
2. 或者,使用带有 E-utilities EFetch 的 `scripts/query_gene.py` 获取特定格式
3. 指定所需的输出格式(JSON、XML 或文本)
Datasets API 返回:
- 基因命名法和别名
- 转录本和蛋白质的参考序列 (RefSeqs)
- 染色体位置和映射
- 基因本体 (GO) 注释
- 相关出版物
### 批量基因查询
同时处理多个基因:
1. 使用 `scripts/batch_gene_lookup.py` 进行高效批量处理
2. 提供基因符号或 ID 列表
3. 为基于符号的查询指定生物体
4. 脚本自动处理速率限制(使用 API 密钥时为 10 次请求/秒)
此工作流适用于:
- 验证基因列表
- 检索基因面板的元数据
- 交叉引用基因标识符
- 构建基因注释表
### 按生物学搜索