ELF 复读陷阱拆穿：连续扩散 LMs 的 Gen-PPL 跑分神话被一维向量按回 27.7

连续扩散 LMs（如 ELF）近期在 Gen-PPL 榜上刷出新低，仿佛 AR 解码的低熵天花板被打破。但 arXiv #2607.00588 把这张跑分表拆穿：Gen-PPL 低，不是因为模型更接近人话，而是因为它们在复读，Gen-PPL 本身正在奖励复读。作者将 ELF-B 的重复 n-gram 去掉后，Gen-PPL 从 19.5 飙升到 27.7；最小模型反而拿到最低 Gen-PPL，原因只有一个——它重复得最厉害。用 Gen-PPL 给连续扩散 LM 排名等同于反向排序：越复读、越靠前。问题出在哪？论文把复读定位到 self-conditioning 反馈环中一维的收缩吸引子：每步把上一步干净估计再灌回去，模型就被这条方向拽着塌向同一 token。失效是一维的，修法也只需一维：作者提出 ACE（Attractor-Contrast-Escape），在每步反馈中减去这个无监督估出的方向。在 105M 上估一次就把复读率压到接近人类水平，质量保持竞争；同方向几乎无损迁移到 342M 和 652M，跨采样器不用调；同一 recipe 还能在其他架构抽出可用方向。既然 Gen-PPL 本身奖励复读，论文就不再用它排名，改测产出人类级干净文本所需的算力。该指标下 ACE 比对照便宜 1.5×–5×。这篇工作的杀伤力不止 ELF 一家，而是给所有用 Gen-PPL 当代理指标排序扩散 LM 的论文和榜单提了个醒：在给跑分表欢呼之前，先把重复 n-gram 拿掉，再看模型到底比人话近多少。指标诚会自我奖励，实验科学的诚实，藏在 n-gram 去重这一步里。