DeepSeek-R1 之后业界发现反直觉事实:LRM 在「1+1=?」上也会写几百 token 反思,token 与延迟被严重浪费。arXiv 2607.00862 收录、被 ACL 2026 Industry Track 接收的 CAT(Confidence-Adaptive Thinking),把模型「自我置信度」当调速器,让 LRM 自己决定每道题该想多久。 过去做推理压缩,要么「一刀切」压缩 CoT,要么外挂分类器粗判难度——前者难题上掉精度,后者易误判。CAT 的观察很简洁:模型自己其实「知道」每道题有多少把握,这种 self-certainty 在偏好优化里几乎没人用过。作者把 confidence 作为偏好信号直接灌进偏好优化,让模型同时学两件事:自信的题压缩回答,不自信的题充分推演。同一组权重,在「9.9 比 9.11」上两三行答完,在证明题上认真推几十步。多个 benchmark 稳定超过 SOTA,平均 token 消耗显著降低。 CAT 的真正贡献不是新算法,而是指出一个被忽视的免费信号——模型对自身输出的置信度天然随题而变。当工业界把 RL 目标改成「长度自适应用户需求」时,这种「内省式」信号比外挂分类器更鲁棒、更便宜,后续在 agent 规划、多轮推理、工具调用场景里会进一步扩散。