LLM 元认知首次可度量：Metacognition-Bench 用 300 道陷阱题 + 11 个开源错题雷达适配器把自我纠错做成开源工程

当 LLM 在对话里自信地说出错误答案时，「我能答对」与「我知道自己可能要错」其实是两种完全不同的能力。7 月 1 日，ginigen-ai 与 FINAL-Bench 在 Hugging Face 发布 Metacognition-Bench，把后者首次做成了一个可测量、可改进、可开源的工程问题。整套释放分为三层：一份 300+100 道「陷阱题」的 Metacognition-Bench（覆盖 121 个领域、8 种典型认知偏差——base-rate neglect、premise-shift blindness、二元框架、publication bias 等），一张 24 模型排行榜，以及 11 个针对不同基座、权重冻结、即插即用的「错题雷达」适配器。他们的核心观点是，单一指标刻画不了元认知，必须沿两个独立维度看：① 脆弱性（trap_rate，越低越好），衡量模型被陷阱选项诱导的概率；② 适配器增益（Δ AUROC，越高越好），衡量一个轻量 MLP 仅读最后一层 hidden state，能否预测「这道题要错」。基座权重完全不修改，只在输出侧加一个小头。最值得讨论的发现是：哪怕是 K-AI 榜第一的 JGOS-31B-Citizen，trap_rate 低到 0.005（400 题只错 2 道），但它在自由生成里对自己错误的 AUROC 仅为 0.5——与随机猜无异。「考得好」和「知道自己哪里要考砸」，是两个互不相干的维度。Qwen3.5-27B 在适配器增益榜上以 +0.800 AUROC 一骑绝尘，意味着它的原始自我感知几乎为零，反而给错题雷达留出了最大提升空间。更值得玩味的是：当多个顶级模型在选择题层面无法被分开时，自由生成 + 适配器这条曲线反而把它们重新区分开来。这暗示在 LLM 进入高风险部署时，「让模型自己举手说我可能错」可能比再加一道更难的考试更重要。基准、排行榜、适配器权重、训练代码全部开源，任何人提交一个 HF 模型即可被每日自动打分并入榜。