过程监督

核心事件 Anthropic 近期发布了关于“教 Claude 学会为什么（Teaching Claude Why）”的技术报告，揭示了其如何通过强化学习（RL）和过程监督（Process Supervision）技术，使模型不仅能给出正确答案，还能理解并阐述决策背后的逻辑。这标志着大模型从单纯的“概率拟合”向“逻辑推理”迈出了关键一步。 ▶ 从结果导向转向过程导向：传统的训练模式侧重于奖励正确的输出，而 Anthropic 的新方法侧重于奖励正确的“推理路径”，有效解决了模型“蒙对答案但逻辑狗屁不通”的问题。 ▶ 系统 2 思维的显性化：通过引入特定的思维链（CoT）训练，Claude 被赋予了类似于人类的“慢思考”能力，在处理复杂数学、代码和逻辑悖论时表现出更高的鲁棒性。 ▶ 可解释性与安全性的双赢：当模型能够解释“为什么”时，人类开发者可以更轻松地审计其思维过程，从而在根源上识别并拦截潜在的幻觉或偏见。八卦洞察在硅谷的“推理军备竞赛”中，OpenAI 的 o1 开启了推理时间计算（Inference-time Compute）的大门，而 Anthropic 的这次披露则是在“透明度”上祭出了杀招。我们认为，Anthropic 的核心战略是“推理的可追溯性”。不同于黑盒化的性能堆砌，Anthropic 试图建立一种“可验证的智能”。这意味着在未来的企业级应用中，Claude 可能比 OpenAI 的产品更具吸引力，因为对于金融、医疗等高容错率行业，知道“为什么错”比“偶尔做对”更重要。这不仅是技术的进步，更是对 AI 治理话语权的争夺。行动建议对于 CTO 和架构师，建议开始评估 AI 工作流中的“逻辑审计”需求。不要仅仅关注 Benchmark 的分数，而应测试模型在复杂长链条推理中的逻辑一致性。对于开发者，应关注“过程监督奖励模型（PRM）”的集成，这是下一代 RAG 和 Agent 开发的核心。对于投资者，Anthropic 的这一动作预示着 AI 赛道的估值逻辑正从“参数规模”转向“推理质量”和“可解释性”。

八卦智库：Anthropic 揭秘“教 Claude 学会逻辑”——大模型推理范式的深度跃迁

BAGUA AI