[ PROMPT_NODE_22846 ]
Post Training Miles API 参考
[ SKILL_DOCUMENTATION ]
# miles API 参考
## 概述
miles 是一个基于 slime 构建的企业级强化学习框架,为大规模 MoE 训练增加了高级功能:
- 统一的 FP8 训练和推理
- INT4 量化感知训练
- Rollout Routing Replay (R3)
- 投机强化学习训练
**注意**:miles 继承了 slime 的配置系统。基础参数请参考 [slime API 参考](../../slime/references/api-reference.md)。
## 核心数据结构
miles 使用与 slime 相同的 `Sample` 数据类,并增加了 `rollout_routed_experts` 字段用于 MoE 路由重放。
## 快速开始
bash
python train.py
--advantage-estimator grpo
--model-name qwen3-30b-a3b
--hf-checkpoint /path/to/qwen3-30b-a3b-hf
--rollout-batch-size 512
--n-samples-per-prompt 8
## 配置选项
miles 继承了 slime 的三类参数(Megatron、带 `--sglang-` 前缀的 SGLang 以及 slime 特有参数)。主要新增内容如下:
### 集群资源(继承自 slime)
bash
--actor-num-nodes 1
--actor-num-gpus-per-node 8
--rollout-num-gpus 8
--rollout-num-gpus-per-engine 2
--colocate
### Megatron 并行(继承自 slime)
bash
--tensor-model-parallel-size 8
--pipeline-model-parallel-size 2
--expert-model-parallel-size 4 # MoE 专家并行
### 投机解码
miles 文档中已验证的标志:
bash
# 基础投机解码
--sglang-speculative-algorithm EAGLE
--sglang-speculative-num-steps 3
--sglang-speculative-eagle-topk 1
--sglang-speculative-num-draft-tokens 4
--sglang-enable-draft-weights-cpu-backup
# 草稿模型路径
--sglang-speculative-draft-model-path /your/draft/model/path
# 草稿模型的在线 SFT (MTP)
--mtp-num-layers 1
--enable-mtp-training
--mtp-loss-scaling-factor 0.2
**注意**:在线 MTP 训练需要包含 MTP 权重的 torch dist 检查点。在将检查点从 HuggingFace 转换为 torch dist 格式时,请添加 `--mtp-num-layers 1`。
## 核心特性(概念)
以下特性已在 miles 中记录,但具体的 CLI 标志未公开。请查阅 miles 仓库以获取最新的配置选项。
### 统一 FP8 流水线
端到端的 FP8 采样和训练,消除了 MoE 模型中因量化引起的导致强化学习崩溃的差异。
### Rollout Routing Replay (R3)
在 SGLang 推理期间记录专家路由决策,并在 Megatron 训练期间重放它们,以实现位级专家对齐。
**R3 工作原理**:
1. 在 SGLang 推理期间,