佛罗伦萨大学团队在 arXiv 发布 2606.07515 论文,把 8 个 SOTA 大模型(16 种有/无 CoT 的配置)拉去做"形式可证、又能触发直觉偏差"的离散概率推理题。结果是一道分水岭:标准题平均 0.96(16 个里 9 个超 0.99),反直觉变体直接掉到 0.59,最强 ChatGPT 5.4 Thinking 也只到 0.84。论文接着做三种"降维打击":把题面措辞改写成同构但陌生的版本,准确率掉 20%;在 prompt 里植入由其他模型生成的"看上去合理"的错误答案,性能最高崩 34%,且没有模型免疫;最反常的是 Mistral Large 3,开 CoT 几乎无收益。结论很直白——今天的 LLM 不是概率推理者,而是"训练语料里的概率题复读机"。它们在标准题上的稳健性更多来自对题面模板的检索,而非对概率公理的内部验证;RLHF 阶段的"讨好"训练又把推理天花板锁死在"题感"上。这恰好解释了为什么最近 GRPO、On-Policy Distillation 等工作开始把纠错压力从结果层推向 rollout 层——纯靠题感的红利快要到头了。