[ PROMPT_NODE_26646 ]
gget
[ SKILL_DOCUMENTATION ]
# gget
## 概述
gget 是一个命令行生物信息学工具和 Python 包,提供对 20 多个基因组数据库和分析方法的统一访问。通过一致的接口查询基因信息、序列分析、蛋白质结构、表达数据和疾病关联。所有 gget 模块既可作为命令行工具使用,也可作为 Python 函数使用。
**重要提示**:gget 查询的数据库会持续更新,这有时会改变其结构。gget 模块会每两周进行一次自动测试,并在必要时更新以匹配新的数据库结构。
## 安装
在干净的虚拟环境中安装 gget 以避免冲突:
bash
# 使用 uv (推荐)
uv uv pip install gget
# 或者使用 pip
uv pip install --upgrade gget
# 在 Python/Jupyter 中
import gget
## 快速入门
所有模块的基本使用模式:
bash
# 命令行
gget [arguments] [options]
# Python
gget.module(arguments, options)
大多数模块返回:
- **命令行**:JSON(默认)或带有 `-csv` 标志的 CSV
- **Python**:DataFrame 或字典
各模块通用的标志:
- `-o/--out`:将结果保存到文件
- `-q/--quiet`:抑制进度信息
- `-csv`:返回 CSV 格式(仅限命令行)
## 模块分类
### 1. 参考基因组与基因信息
#### gget ref - 参考基因组下载
检索 Ensembl 参考基因组的下载链接和元数据。
**参数**:
- `species`:Genus_species 格式(例如 'homo_sapiens', 'mus_musculus')。快捷方式:'human', 'mouse'
- `-w/--which`:指定返回类型(gtf, cdna, dna, cds, cdrna, pep)。默认:all
- `-r/--release`:Ensembl 发布版本号(默认:最新)
- `-l/--list_species`:列出可用的脊椎动物物种
- `-liv/--list_iv_species`:列出可用的无脊椎动物物种
- `-ftp`:仅返回 FTP 链接
- `-d/--download`:下载文件(需要 curl)
**示例**:
bash
# 列出可用物种
gget ref --list_species
# 获取人类的所有参考文件
gget ref homo_sapiens
# 仅下载小鼠的 GTF 注释
gget ref -w gtf -d mouse
python
# Python
gget.ref("homo_sapiens")
gget.ref("mus_musculus", which="gtf", download=True)
#### gget search - 基因搜索
按名称或描述在物种中定位基因。
**参数**:
- `searchwords`:一个或多个搜索词(不区分大小写)
- `-s/--species`:目标物种(例如 'homo_sapiens', 'mouse')
- `-r/--release`:Ensembl 发布版本号
- `-t/--id_type`:返回 'gene'