SOTA 大模型玩骰子也翻车：佛罗伦萨大学论文揭 LLM 概率推理"靠题感不靠推理"

佛罗伦萨大学团队在 arXiv 发布 2606.07515 论文，把 8 个 SOTA 大模型（16 种有/无 CoT 的配置）拉去做"形式可证、又能触发直觉偏差"的离散概率推理题。结果是一道分水岭：标准题平均 0.96（16 个里 9 个超 0.99），反直觉变体直接掉到 0.59，最强 ChatGPT 5.4 Thinking 也只到 0.84。论文接着做三种"降维打击"：把题面措辞改写成同构但陌生的版本，准确率掉 20%；在 prompt 里植入由其他模型生成的"看上去合理"的错误答案，性能最高崩 34%，且没有模型免疫；最反常的是 Mistral Large 3，开 CoT 几乎无收益。结论很直白——今天的 LLM 不是概率推理者，而是"训练语料里的概率题复读机"。它们在标准题上的稳健性更多来自对题面模板的检索，而非对概率公理的内部验证；RLHF 阶段的"讨好"训练又把推理天花板锁死在"题感"上。这恰好解释了为什么最近 GRPO、On-Policy Distillation 等工作开始把纠错压力从结果层推向 rollout 层——纯靠题感的红利快要到头了。