[ DATA_STREAM: MIT ]

MIT

SCORE
8.5

MIT发布RLCR框架:终结大模型“一本正经胡说八道”的痼疾

TIMESTAMP // 5 月.14
#AI安全 #MIT #大模型 #强化学习 #置信度校准

麻省理工学院(MIT)CSAIL团队近期推出RLCR(基于置信度报告的强化学习)框架,旨在通过校准模型置信度,使AI在面对未知或模糊问题时学会主动表达“我不确定”。 ▶ 解决“过度自信”的幻觉陷阱:RLCR不再仅仅追求答案的正确率,而是通过特殊的奖励机制,严厉惩罚“高置信度的错误答案”,从而迫使模型在不确定的情况下选择“弃权”。 ▶ 从概率预测转向自我认知:该技术改变了LLM仅依赖Token概率输出的现状,通过引入置信度评分,使模型的输出可靠性与其实际能力边界达成对齐。 八卦洞察 当下的主流大模型本质上是“讨好型人格”的概率机器,由于预训练目标是最大化序列似然概率,它们往往宁愿编造事实也不愿承认无知。RLCR的出现标志着AI训练范式从“知识灌输”向“元认知(Metacognition)”的进化。在工业级应用中,一个能够识别自身局限性的模型,其价值远高于一个博学但偶尔撒谎的模型。这种“认知谦逊”是RAG(检索增强生成)和Agent架构走向金融、医疗等严肃场景的最后一块拼图。 行动建议 企业在进行SFT(指令微调)或RLHF时,应考虑引入类似RLCR的拒绝机制(Refusal Mechanism),而非单纯追求Benchmark的高分。对于开发者而言,建立一套“置信度感知”的评估体系,将“错误且自信”作为最高风险指标进行监控,是提升GenAI产品可用性的关键。

SOURCE: REDDIT LOCALLLAMA // UPLINK_STABLE