MIT

麻省理工学院（MIT）CSAIL团队近期推出RLCR（基于置信度报告的强化学习）框架，旨在通过校准模型置信度，使AI在面对未知或模糊问题时学会主动表达“我不确定”。 ▶ 解决“过度自信”的幻觉陷阱：RLCR不再仅仅追求答案的正确率，而是通过特殊的奖励机制，严厉惩罚“高置信度的错误答案”，从而迫使模型在不确定的情况下选择“弃权”。 ▶ 从概率预测转向自我认知：该技术改变了LLM仅依赖Token概率输出的现状，通过引入置信度评分，使模型的输出可靠性与其实际能力边界达成对齐。八卦洞察当下的主流大模型本质上是“讨好型人格”的概率机器，由于预训练目标是最大化序列似然概率，它们往往宁愿编造事实也不愿承认无知。RLCR的出现标志着AI训练范式从“知识灌输”向“元认知（Metacognition）”的进化。在工业级应用中，一个能够识别自身局限性的模型，其价值远高于一个博学但偶尔撒谎的模型。这种“认知谦逊”是RAG（检索增强生成）和Agent架构走向金融、医疗等严肃场景的最后一块拼图。行动建议企业在进行SFT（指令微调）或RLHF时，应考虑引入类似RLCR的拒绝机制（Refusal Mechanism），而非单纯追求Benchmark的高分。对于开发者而言，建立一套“置信度感知”的评估体系，将“错误且自信”作为最高风险指标进行监控，是提升GenAI产品可用性的关键。

MIT发布RLCR框架：终结大模型“一本正经胡说八道”的痼疾

BAGUA AI