[ PROMPT_NODE_22846 ]

Post Training Miles API 参考

[ SKILL_DOCUMENTATION ]

# miles API 参考 ## 概述 miles 是一个基于 slime 构建的企业级强化学习框架，为大规模 MoE 训练增加了高级功能： - 统一的 FP8 训练和推理 - INT4 量化感知训练 - Rollout Routing Replay (R3) - 投机强化学习训练 **注意**：miles 继承了 slime 的配置系统。基础参数请参考 [slime API 参考](../../slime/references/api-reference.md)。 ## 核心数据结构 miles 使用与 slime 相同的 `Sample` 数据类，并增加了 `rollout_routed_experts` 字段用于 MoE 路由重放。 ## 快速开始 bash python train.py --advantage-estimator grpo --model-name qwen3-30b-a3b --hf-checkpoint /path/to/qwen3-30b-a3b-hf --rollout-batch-size 512 --n-samples-per-prompt 8 ## 配置选项 miles 继承了 slime 的三类参数（Megatron、带 `--sglang-` 前缀的 SGLang 以及 slime 特有参数）。主要新增内容如下： ### 集群资源（继承自 slime） bash --actor-num-nodes 1 --actor-num-gpus-per-node 8 --rollout-num-gpus 8 --rollout-num-gpus-per-engine 2 --colocate ### Megatron 并行（继承自 slime） bash --tensor-model-parallel-size 8 --pipeline-model-parallel-size 2 --expert-model-parallel-size 4 # MoE 专家并行 ### 投机解码 miles 文档中已验证的标志： bash # 基础投机解码 --sglang-speculative-algorithm EAGLE --sglang-speculative-num-steps 3 --sglang-speculative-eagle-topk 1 --sglang-speculative-num-draft-tokens 4 --sglang-enable-draft-weights-cpu-backup # 草稿模型路径 --sglang-speculative-draft-model-path /your/draft/model/path # 草稿模型的在线 SFT (MTP) --mtp-num-layers 1 --enable-mtp-training --mtp-loss-scaling-factor 0.2 **注意**：在线 MTP 训练需要包含 MTP 权重的 torch dist 检查点。在将检查点从 HuggingFace 转换为 torch dist 格式时，请添加 `--mtp-num-layers 1`。 ## 核心特性（概念）以下特性已在 miles 中记录，但具体的 CLI 标志未公开。请查阅 miles 仓库以获取最新的配置选项。 ### 统一 FP8 流水线端到端的 FP8 采样和训练，消除了 MoE 模型中因量化引起的导致强化学习崩溃的差异。 ### Rollout Routing Replay (R3) 在 SGLang 推理期间记录专家路由决策，并在 Megatron 训练期间重放它们，以实现位级专家对齐。 **R3 工作原理**： 1. 在 SGLang 推理期间，

数据来源：claude-code-templates（MIT），中文翻译由 AI 生成。详见关于我们。

BAGUA AI