[ PROMPT_NODE_27500 ]
retrosynthesis
[ SKILL_DOCUMENTATION ]
# 逆合成分析
## 概述
逆合成分析是从目标分子规划回商业可用起始原料的合成路线的过程。TorchDrug 提供了用于学习型逆合成预测的工具,将复杂的任务分解为可管理的子任务。
## 可用数据集
### USPTO-50K
源自美国专利文献的逆合成标准基准数据集。
**统计信息:**
- 50,017 个反应示例
- 单步反应
- 经过质量过滤和规范化
- 包含用于反应中心识别的原子映射
**反应类型:**
- 多样化的有机反应
- 类药转化
- 在常见反应类别中分布均衡
**数据划分:**
- 训练集:~40k 反应
- 验证集:~5k 反应
- 测试集:~5k 反应
**格式:**
- 产物 → 反应物
- SMILES 表示
- 用于训练的原子映射反应
## 任务类型
TorchDrug 将逆合成分解为多步流水线:
### 1. CenterIdentification (中心识别)
识别反应中心——即正向反应中哪些化学键形成或断裂。
**输入:** 产物分子
**输出:** 每个化学键属于反应中心的概率
**目的:**
- 定位化学反应发生的位置
- 指导后续合成子生成
- 显著减少搜索空间
**模型架构:**
- 产物分子上的图神经网络
- 边级分类
- 用于突出反应区域的注意力机制
**评估指标:**
- **Top-K 准确率**:前 K 个预测中包含正确的反应中心
- **键级 F1 分数**:键预测的精确率和召回率
### 2. SynthonCompletion (合成子补全)
给定产物和识别出的反应中心,预测反应物结构(合成子)。
**输入:**
- 产物分子
- 识别出的反应中心(断裂/形成的键)
**输出:**
- 预测的反应物分子(合成子)
**过程:**
1. 在反应中心断开化学键
2. 修改原子环境(价态、电荷)
3. 确定离去基团和保护基团
4. 生成完整的反应物结构
**挑战:**
- 存在多个有效的反应物集合
- 立体特异性
- 原子环境变化(杂化、电荷)
- 离去基团的选择
**评估:**
- **精确匹配**:生成的反应物与真实值完全匹配
- **Top-K 准确率**:前 K 个预测中包含正确的反应物
- **化学有效性**:生成的分子是有效的
### 3. Retrosynthesis (端到端逆合成)
结合中心识别和合成子补全