[ PROMPT_NODE_27488 ]
Torchdrug 数据集
[ SKILL_DOCUMENTATION ]
# 数据集参考
## 概述
TorchDrug 提供了 40 多个跨多个领域的精选数据集:分子性质预测、蛋白质建模、知识图谱推理和逆合成。所有数据集均支持懒加载、自动下载和可定制的特征提取。
## 分子性质预测数据集
### 药物发现分类
| 数据集 | 大小 | 任务 | 类别 | 描述 |
|---------|------|------|---------|-------------|
| **BACE** | 1,513 | 二分类 | 2 | 阿尔茨海默病 β-分泌酶抑制 |
| **BBBP** | 2,039 | 二分类 | 2 | 血脑屏障渗透性 |
| **HIV** | 41,127 | 二分类 | 2 | HIV 复制抑制 |
| **ClinTox** | 1,478 | 多标签 | 2 | 临床试验毒性 |
| **SIDER** | 1,427 | 多标签 | 27 | 系统器官分类副作用 |
| **Tox21** | 7,831 | 多标签 | 12 | 12 个靶点的毒性 |
| **ToxCast** | 8,576 | 多标签 | 617 | 高通量毒理学 |
| **MUV** | 93,087 | 多标签 | 17 | 筛选的无偏验证 |
**关键特性:**
- 全部使用支架拆分(scaffold splits)以进行真实评估
- 二分类指标:AUROC, AUPRC
- 多标签处理缺失值
**用例:**
- 药物安全性预测
- 虚拟筛选
- ADMET 性质预测
### 药物发现回归
| 数据集 | 大小 | 性质 | 单位 | 描述 |
|---------|------|----------|-------|-------------|
| **ESOL** | 1,128 | 溶解度 | log(mol/L) | 水溶性 |
| **FreeSolv** | 642 | 水合作用 | kcal/mol | 水合自由能 |
| **Lipophilicity** | 4,200 | LogD | - | 辛醇/水分配系数 |
| **SAMPL** | 643 | 溶剂化 | kcal/mol | 溶剂化自由能 |
**指标:** MAE, RMSE, R²
**用例:** ADME 优化,先导化合物优化
### 量子化学
| 数据集 | 大小 | 性质 | 描述 |
|---------|------|------------|-------------|
| **QM7** | 7,165 | 1 | 原子化能 |
| **QM8** | 21,786 | 12 | 电子光谱,激发态 |
| **QM9** | 133,885 | 12 | 几何、能量、电子、热力学 |
| **PCQM4M** | 3.8M | 1 | 大规模 HOMO-LUMO 能隙 |
**性质 (QM9):**
- 偶极矩
- 各向同性极化率
- HOMO/LUMO 能量
- 内能、焓、自由能
- 热容
- 电子空间范围
**用例:**
- 量子性质预测
- 方法开发基准测试
- 分子模型预训练
### 大分子数据库
| 数据集 | 大小 | 描述 | 用例 |
|--------