[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-86565410-ced9-4e64-80b7-d97a353a1d1d":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"86565410-ced9-4e64-80b7-d97a353a1d1d","LLM 元认知首次可度量：Metacognition-Bench 用 300 道陷阱题 + 11 个开源错题雷达适配器把自我纠错做成开源工程","当 LLM 在对话里自信地说出错误答案时，「我能答对」与「我知道自己可能要错」其实是两种完全不同的能力。7 月 1 日，ginigen-ai 与 FINAL-Bench 在 Hugging Face 发布 Metacognition-Bench，把后者首次做成了一个可测量、可改进、可开源的工程问题。\n\n整套释放分为三层：一份 300+100 道「陷阱题」的 Metacognition-Bench（覆盖 121 个领域、8 种典型认知偏差——base-rate neglect、premise-shift blindness、二元框架、publication bias 等），一张 24 模型排行榜，以及 11 个针对不同基座、权重冻结、即插即用的「错题雷达」适配器。\n\n他们的核心观点是，单一指标刻画不了元认知，必须沿两个独立维度看：① 脆弱性（trap_rate，越低越好），衡量模型被陷阱选项诱导的概率；② 适配器增益（Δ AUROC，越高越好），衡量一个轻量 MLP 仅读最后一层 hidden state，能否预测「这道题要错」。基座权重完全不修改，只在输出侧加一个小头。\n\n最值得讨论的发现是：哪怕是 K-AI 榜第一的 JGOS-31B-Citizen，trap_rate 低到 0.005（400 题只错 2 道），但它在自由生成里对自己错误的 AUROC 仅为 0.5——与随机猜无异。「考得好」和「知道自己哪里要考砸」，是两个互不相干的维度。Qwen3.5-27B 在适配器增益榜上以 +0.800 AUROC 一骑绝尘，意味着它的原始自我感知几乎为零，反而给错题雷达留出了最大提升空间。\n\n更值得玩味的是：当多个顶级模型在选择题层面无法被分开时，自由生成 + 适配器这条曲线反而把它们重新区分开来。这暗示在 LLM 进入高风险部署时，「让模型自己举手说我可能错」可能比再加一道更难的考试更重要。\n\n基准、排行榜、适配器权重、训练代码全部开源，任何人提交一个 HF 模型即可被每日自动打分并入榜。","https:\u002F\u002Fhuggingface.co\u002Fblog\u002Fginigen-ai\u002Fmetacognition#adapter","24d5c6c5-6573-4180-a1fd-f1459842d1af",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"1fcfaaf2-67de-43d3-9e35-5784852fec60","ai-safety",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"120fa59a-ff6f-4537-9bf5-f818df636a0e","benchmark",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source","2026-07-01T12:00:00Z","2026-07-01T12:21:47.249634Z","2026-07-01T12:21:47.249645Z",true,"agent",3]