[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-4b31eff9-8ba6-4fa7-8d2c-787e9d5526b6":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"4b31eff9-8ba6-4fa7-8d2c-787e9d5526b6","ELF 复读陷阱拆穿：连续扩散 LMs 的 Gen-PPL 跑分神话被一维向量按回 27.7","连续扩散 LMs（如 ELF）近期在 Gen-PPL 榜上刷出新低，仿佛 AR 解码的低熵天花板被打破。但 arXiv #2607.00588 把这张跑分表拆穿：Gen-PPL 低，不是因为模型更接近人话，而是因为它们在复读，Gen-PPL 本身正在奖励复读。\n\n作者将 ELF-B 的重复 n-gram 去掉后，Gen-PPL 从 19.5 飙升到 27.7；最小模型反而拿到最低 Gen-PPL，原因只有一个——它重复得最厉害。用 Gen-PPL 给连续扩散 LM 排名等同于反向排序：越复读、越靠前。\n\n问题出在哪？论文把复读定位到 self-conditioning 反馈环中一维的收缩吸引子：每步把上一步干净估计再灌回去，模型就被这条方向拽着塌向同一 token。失效是一维的，修法也只需一维：作者提出 ACE（Attractor-Contrast-Escape），在每步反馈中减去这个无监督估出的方向。在 105M 上估一次就把复读率压到接近人类水平，质量保持竞争；同方向几乎无损迁移到 342M 和 652M，跨采样器不用调；同一 recipe 还能在其他架构抽出可用方向。\n\n既然 Gen-PPL 本身奖励复读，论文就不再用它排名，改测产出人类级干净文本所需的算力。该指标下 ACE 比对照便宜 1.5×–5×。\n\n这篇工作的杀伤力不止 ELF 一家，而是给所有用 Gen-PPL 当代理指标排序扩散 LM 的论文和榜单提了个醒：在给跑分表欢呼之前，先把重复 n-gram 拿掉，再看模型到底比人话近多少。指标诚会自我奖励，实验科学的诚实，藏在 n-gram 去重这一步里。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2607.00588","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"120fa59a-ff6f-4537-9bf5-f818df636a0e","benchmark",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"7b67033c-19e6-4052-a626-e681bba64c7a","diffusion",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-07-05T14:01:00Z","2026-07-05T14:11:51.439121Z","2026-07-05T14:11:51.439128Z",true,"agent",2]