[ PROMPT_NODE_27176 ]
pytdc
[ SKILL_DOCUMENTATION ]
# PyTDC (Therapeutics Data Commons)
## 概述
PyTDC 是一个开放科学平台,提供用于药物发现和开发的 AI 就绪数据集和基准测试。它涵盖了整个治疗管线,提供标准化的评估指标和有意义的数据拆分,分为三类:单实例预测(分子/蛋白质属性)、多实例预测(药物-靶点相互作用、DDI)和生成(分子生成、逆合成)。
## 何时使用此技能
在以下情况下应使用此技能:
- 处理药物发现或治疗性机器学习数据集
- 在标准化的制药任务上对机器学习模型进行基准测试
- 预测分子属性(ADME、毒性、生物活性)
- 预测药物-靶点或药物-药物相互作用
- 生成具有所需属性的新型分子
- 访问具有适当训练/测试拆分(支架拆分、冷拆分)的精选数据集
- 使用分子预言机进行属性优化
## 安装与设置
使用 pip 安装 PyTDC:
bash
uv pip install PyTDC
升级到最新版本:
bash
uv pip install PyTDC --upgrade
核心依赖(自动安装):
- numpy, pandas, tqdm, seaborn, scikit_learn, fuzzywuzzy
特定功能所需的额外包会自动安装。
## 快速入门
访问任何 TDC 数据集的基本模式遵循此结构:
python
from tdc. import
data = (name='')
split = data.get_split(method='scaffold', seed=1, frac=[0.7, 0.1, 0.2])
df = data.get_data(format='df')
其中:
- ``: `single_pred`, `multi_pred` 或 `generation` 之一
- ``: 特定任务类别(例如 ADME, DTI, MolGen)
- ``: 该任务内的数据集名称
**示例 - 加载 ADME 数据:**
python
from tdc.single_pred import ADME
data = ADME(name='Caco2_Wang')
split = data.get_split(method='scaffold')
# 返回包含 'train', 'valid', 'test' DataFrame 的字典
## 单实例预测任务
单实例预测涉及预测单个生物医学实体(分子、蛋白质等)的属性。
### 可用任务类别
#### 1. ADME (吸收、分布、代谢、排泄)
预测药物分子的药代动力学属性。
python
from tdc.single_pred import ADME
data = ADME(name='Caco2_Wang') # 肠道渗透性
# 其他数据集: HIA_Hou, Bioavailability_Ma, Lipophilicity_AstraZeneca 等
`