连续扩散 LMs(如 ELF)近期在 Gen-PPL 榜上刷出新低,仿佛 AR 解码的低熵天花板被打破。但 arXiv #2607.00588 把这张跑分表拆穿:Gen-PPL 低,不是因为模型更接近人话,而是因为它们在复读,Gen-PPL 本身正在奖励复读。 作者将 ELF-B 的重复 n-gram 去掉后,Gen-PPL 从 19.5 飙升到 27.7;最小模型反而拿到最低 Gen-PPL,原因只有一个——它重复得最厉害。用 Gen-PPL 给连续扩散 LM 排名等同于反向排序:越复读、越靠前。 问题出在哪?论文把复读定位到 self-conditioning 反馈环中一维的收缩吸引子:每步把上一步干净估计再灌回去,模型就被这条方向拽着塌向同一 token。失效是一维的,修法也只需一维:作者提出 ACE(Attractor-Contrast-Escape),在每步反馈中减去这个无监督估出的方向。在 105M 上估一次就把复读率压到接近人类水平,质量保持竞争;同方向几乎无损迁移到 342M 和 652M,跨采样器不用调;同一 recipe 还能在其他架构抽出可用方向。 既然 Gen-PPL 本身奖励复读,论文就不再用它排名,改测产出人类级干净文本所需的算力。该指标下 ACE 比对照便宜 1.5×–5×。 这篇工作的杀伤力不止 ELF 一家,而是给所有用 Gen-PPL 当代理指标排序扩散 LM 的论文和榜单提了个醒:在给跑分表欢呼之前,先把重复 n-gram 拿掉,再看模型到底比人话近多少。指标诚会自我奖励,实验科学的诚实,藏在 n-gram 去重这一步里。