[ PROMPT_NODE_22840 ]

Post Training GRPO RL Training 说明文档

[ SKILL_DOCUMENTATION ]

# GRPO/RL 训练技能 **关于使用 TRL 进行组相对策略优化 (GRPO) 的专家级指导** ## 📁 技能结构 grpo-rl-training/ ├── SKILL.md # 主要技能文档（先读此文件） ├── README.md # 本文件 ├── templates/ │ └── basic_grpo_training.py # 可用于生产环境的训练模板 └── examples/ └── reward_functions_library.py # 20+ 奖励函数示例 ## 🚀 快速入门 1. **阅读 SKILL.md** - 包含所有概念和模式的综合指南 2. **复制 `templates/basic_grpo_training.py`** - 从可运行的代码开始 3. **浏览 `examples/reward_functions_library.py`** - 为您的任务选择奖励函数 4. **针对您的用例进行修改** - 适配数据集、奖励和配置 ## 💡 内容概览 ### SKILL.md (主要文档) - 核心 GRPO 概念和算法基础 - 完整的实现工作流（数据集 → 奖励 → 训练 → 部署） - 10+ 带有代码的奖励函数示例 - 超参数调优指南 - 训练洞察（损失行为、指标、调试） - 故障排除指南 - 生产最佳实践 ### 模板 - **basic_grpo_training.py**：最小化、可用于生产的训练脚本 - 使用 Qwen 2.5 1.5B Instruct - 3 个奖励函数（格式 + 正确性） - 用于高效训练的 LoRA - 文档齐全，可直接运行 ### 示例 - **reward_functions_library.py**：20+ 经过实战检验的奖励函数 - 正确性奖励（精确匹配、模糊匹配、数值、代码执行） - 格式奖励（XML、JSON、严格/宽松） - 长度奖励（理想长度、最小/最大） - 风格奖励（推理质量、引用、重复惩罚） - 组合奖励（多目标优化） - 针对常见任务的预设集合 ## 📖 智能体使用说明当此技能加载到智能体上下文中时： 1. **在实施前始终先阅读 SKILL.md** 2. **从简单开始** - 使用基于长度的奖励来验证设置 3. **增量构建** - 一次添加一个奖励函数 4. **参考示例** - 从 reward_functions_library.py 复制模式 5. **监控训练** - 观察奖励指标（而不是损失值！） ## 🎯 常见用例 | 任务类型 | 推荐奖励 | 模板 | |-----------|---------------------|----------| | 数学推理 | `MATH_REASONING_REWARDS` 预设 | basic_grpo_training.py | | 代码生成 | `CODE_GENERATION_REWARDS` 预设 | 修改模板中的数据集 | | 摘要生成 | `SUMMARIZA

数据来源：claude-code-templates（MIT），中文翻译由 AI 生成。详见关于我们。

BAGUA AI