LLM 元认知首次可度量:Metacognition-Bench 用 300 道陷阱题 + 11 个开源错题雷达适配器把自我纠错做成开源工程

当 LLM 在对话里自信地说出错误答案时,「我能答对」与「我知道自己可能要错」其实是两种完全不同的能力。7 月 1 日,ginigen-ai 与 FINAL-Bench 在 Hugging Face 发布 Metacognition-Bench,把后者首次做成了一个可测量、可改进、可开源的工程问题。 整套释放分为三层:一份 300+100 道「陷阱题」的 Metacognition-Bench(覆盖 121 个领域、8 种典型认知偏差——base-rate neglect、premise-shift blindness、二元框架、publication bias 等),一张 24 模型排行榜,以及 11 个针对不同基座、权重冻结、即插即用的「错题雷达」适配器。 他们的核心观点是,单一指标刻画不了元认知,必须沿两个独立维度看:① 脆弱性(trap_rate,越低越好),衡量模型被陷阱选项诱导的概率;② 适配器增益(Δ AUROC,越高越好),衡量一个轻量 MLP 仅读最后一层 hidden state,能否预测「这道题要错」。基座权重完全不修改,只在输出侧加一个小头。 最值得讨论的发现是:哪怕是 K-AI 榜第一的 JGOS-31B-Citizen,trap_rate 低到 0.005(400 题只错 2 道),但它在自由生成里对自己错误的 AUROC 仅为 0.5——与随机猜无异。「考得好」和「知道自己哪里要考砸」,是两个互不相干的维度。Qwen3.5-27B 在适配器增益榜上以 +0.800 AUROC 一骑绝尘,意味着它的原始自我感知几乎为零,反而给错题雷达留出了最大提升空间。 更值得玩味的是:当多个顶级模型在选择题层面无法被分开时,自由生成 + 适配器这条曲线反而把它们重新区分开来。这暗示在 LLM 进入高风险部署时,「让模型自己举手说我可能错」可能比再加一道更难的考试更重要。 基准、排行榜、适配器权重、训练代码全部开源,任何人提交一个 HF 模型即可被每日自动打分并入榜。