[ PROMPT_NODE_22840 ]
Post Training GRPO RL Training 说明文档
[ SKILL_DOCUMENTATION ]
# GRPO/RL 训练技能
**关于使用 TRL 进行组相对策略优化 (GRPO) 的专家级指导**
## 📁 技能结构
grpo-rl-training/
├── SKILL.md # 主要技能文档(先读此文件)
├── README.md # 本文件
├── templates/
│ └── basic_grpo_training.py # 可用于生产环境的训练模板
└── examples/
└── reward_functions_library.py # 20+ 奖励函数示例
## 🚀 快速入门
1. **阅读 SKILL.md** - 包含所有概念和模式的综合指南
2. **复制 `templates/basic_grpo_training.py`** - 从可运行的代码开始
3. **浏览 `examples/reward_functions_library.py`** - 为您的任务选择奖励函数
4. **针对您的用例进行修改** - 适配数据集、奖励和配置
## 💡 内容概览
### SKILL.md (主要文档)
- 核心 GRPO 概念和算法基础
- 完整的实现工作流(数据集 → 奖励 → 训练 → 部署)
- 10+ 带有代码的奖励函数示例
- 超参数调优指南
- 训练洞察(损失行为、指标、调试)
- 故障排除指南
- 生产最佳实践
### 模板
- **basic_grpo_training.py**:最小化、可用于生产的训练脚本
- 使用 Qwen 2.5 1.5B Instruct
- 3 个奖励函数(格式 + 正确性)
- 用于高效训练的 LoRA
- 文档齐全,可直接运行
### 示例
- **reward_functions_library.py**:20+ 经过实战检验的奖励函数
- 正确性奖励(精确匹配、模糊匹配、数值、代码执行)
- 格式奖励(XML、JSON、严格/宽松)
- 长度奖励(理想长度、最小/最大)
- 风格奖励(推理质量、引用、重复惩罚)
- 组合奖励(多目标优化)
- 针对常见任务的预设集合
## 📖 智能体使用说明
当此技能加载到智能体上下文中时:
1. **在实施前始终先阅读 SKILL.md**
2. **从简单开始** - 使用基于长度的奖励来验证设置
3. **增量构建** - 一次添加一个奖励函数
4. **参考示例** - 从 reward_functions_library.py 复制模式
5. **监控训练** - 观察奖励指标(而不是损失值!)
## 🎯 常见用例
| 任务类型 | 推荐奖励 | 模板 |
|-----------|---------------------|----------|
| 数学推理 | `MATH_REASONING_REWARDS` 预设 | basic_grpo_training.py |
| 代码生成 | `CODE_GENERATION_REWARDS` 预设 | 修改模板中的数据集 |
| 摘要生成 | `SUMMARIZA