学习率调度

RPS（Reversed Plasticity SFT，反向塑性微调）是一种借鉴神经科学原理的 LLM 后训练新方法，通过模拟人类从幼年（高塑性/基础技能）到成年（低塑性/高级技能）的认知演化过程，显著增强了 Qwen3-8b 在程序合成等复杂任务中的逻辑稳定性。 ▶ 范式转移：RPS 颠覆了传统的统一学习率或线性衰减微调模式，将“学习率”等同于“模型塑性”，通过两阶段策略（高 LR+简单数据 → 10% 低 LR+困难数据）实现了更精准的知识固化。 ▶ 实证效果：在 Qwen3-8b 的初步测试中，该方法有效解决了模型在处理高难度代码任务时常见的逻辑崩坏问题，提升了生成代码的可靠性与一致性。八卦洞察 RPS 的出现标志着 LLM 微调正从“暴力数据灌输”向“认知阶段管理”进化。其核心价值在于解决了后训练中的“灾难性遗忘”与“过拟合”之间的矛盾。在第一阶段，高学习率确保模型快速吸收通用指令逻辑；在第二阶段，极低的学习率则像“精细雕刻刀”，在不破坏底层架构的前提下，让模型掌握复杂的领域专家知识。这种方法对于算力受限但追求极致垂直性能的团队极具吸引力，它证明了在算法层面，模拟生物进化路径依然是提升 AI 效率的捷径。行动建议对于专注于代码生成、数学推理或法律/医疗等垂直领域的开发者，建议立即在现有的 SFT 流程中引入 RPS 实验。具体操作上，应重新审视数据集的“难度梯度”，并根据数据复杂度动态调整学习率步长，而非盲目追求全局收敛。此外，该方法在小参数模型（如 8B 级别）上的表现尤为突出，是优化端侧模型逻辑能力的低成本优选方案。

【情报】神经科学启发：RPS 微调法显著提升 Qwen3 代码合成可靠性

BAGUA AI