[ PROMPT_NODE_26846 ]
available_featurizers
[ SKILL_DOCUMENTATION ]
# Molfeat 中可用的特征化器
本文档提供了 molfeat 中所有可用特征化器的完整目录,按类别组织。
## 基于 Transformer 的语言模型
使用 SMILES/SELFIES 表示进行分子嵌入的预训练 Transformer 模型。
### RoBERTa 类模型
- **Roberta-Zinc480M-102M** - 在 ZINC 数据库约 4.8 亿条 SMILES 字符串上训练的 RoBERTa 掩码语言模型
- **ChemBERTa-77M-MLM** - 基于 RoBERTa 的掩码语言模型,在 7700 万个 PubChem 化合物上训练
- **ChemBERTa-77M-MTR** - 在 PubChem 化合物上训练的多任务回归版本
### GPT 类自回归模型
- **GPT2-Zinc480M-87M** - 在 ZINC 约 4.8 亿条 SMILES 上训练的 GPT-2 自回归语言模型
- **ChemGPT-1.2B** - 在 PubChem10M 上预训练的大型 Transformer(12 亿参数)
- **ChemGPT-19M** - 在 PubChem10M 上预训练的中型 Transformer(1900 万参数)
- **ChemGPT-4.7M** - 在 PubChem10M 上预训练的小型 Transformer(470 万参数)
### 专用 Transformer 模型
- **MolT5** - 用于分子标注和基于文本生成的自监督框架
## 图神经网络 (GNNs)
在分子图结构上运行的预训练图神经网络模型。
### GIN (图同构网络) 变体
全部在 ChEMBL 分子上进行预训练,具有不同的目标:
- **gin-supervised-masking** - 带有节点掩码目标的监督学习
- **gin-supervised-infomax** - 带有图级互信息最大化的监督学习
- **gin-supervised-edgepred** - 带有边预测目标的监督学习
- **gin-supervised-contextpred** - 带有上下文预测目标的监督学习
### 其他基于图的模型
- **JTVAE_zinc_no_kl** - 用于分子生成的连接树 VAE(在 ZINC 上训练)
- **Graphormer-pcqm4mv2** - 在 PCQM4Mv2 量子化学数据集上预训练的图 Transformer,用于 HOMO-LUMO 能隙预测
## 分子描述符
用于物理化学性质和分子特征的计算器。
### 2D 描述符
- **desc2D** / **rdkit2D** - 200 多种 RDKit 2D 分子描述符,包括:
- 分子量、logP、TPSA
- 氢键供体/受体
- 可旋转键
- 环计数和芳香性
- 分子复杂性指标
### 3D 描述符
- **desc3D** / **rdkit3D** - RDKit 3D 分子描述符(需要构象生成)
- 转动惯量
- PMI(主转动惯量)比率
- 非球形度、偏心率
- 回转半径
### 综合描述符集
- **mord