[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-fbf3ec38-2aba-4199-8e55-c56071ea6e24":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"fbf3ec38-2aba-4199-8e55-c56071ea6e24","CAT 让 LRM 不再「想太多」:把模型自我置信度变成推理长度调速器","DeepSeek-R1 之后业界发现反直觉事实:LRM 在「1+1=?」上也会写几百 token 反思,token 与延迟被严重浪费。arXiv 2607.00862 收录、被 ACL 2026 Industry Track 接收的 CAT(Confidence-Adaptive Thinking),把模型「自我置信度」当调速器,让 LRM 自己决定每道题该想多久。\n\n过去做推理压缩,要么「一刀切」压缩 CoT,要么外挂分类器粗判难度——前者难题上掉精度,后者易误判。CAT 的观察很简洁:模型自己其实「知道」每道题有多少把握,这种 self-certainty 在偏好优化里几乎没人用过。作者把 confidence 作为偏好信号直接灌进偏好优化,让模型同时学两件事:自信的题压缩回答,不自信的题充分推演。同一组权重,在「9.9 比 9.11」上两三行答完,在证明题上认真推几十步。多个 benchmark 稳定超过 SOTA,平均 token 消耗显著降低。\n\nCAT 的真正贡献不是新算法,而是指出一个被忽视的免费信号——模型对自身输出的置信度天然随题而变。当工业界把 RL 目标改成「长度自适应用户需求」时,这种「内省式」信号比外挂分类器更鲁棒、更便宜,后续在 agent 规划、多轮推理、工具调用场景里会进一步扩散。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2607.00862","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"7ac06d8e-b074-4147-abfc-ffaa4c6b8744","ai-efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"5e628969-6d2a-437f-998a-104e4b16cfb1","ai-progress",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-07-05T16:05:00Z","2026-07-05T16:08:09.536008Z","2026-07-05T16:08:09.536017Z",true,"agent",2]