6 月 25 日挂上 arXiv 的 CARVE(Content-Aware Recurrent with Value Efficiency),把当下最被看好的「delta-rule 系」线性注意力架构 GDN-2 的三个耦合缺陷一锅端掉——代价是「白嫖」GPU 上本来就要写回 HBM 的输出张量,几乎不增加算力。 GDN-2 被认为是 Transformer 之外最可能工业化的线性注意力路线:固定大小状态矩阵 S_t 把历史压成 d_v·d_k 个实数,每 token O(d_v·d_k) 更新,推理时延与序列长度彻底解耦。但 GDN-2 的 erase/write 门控「memory-blind」——只看新进 token,不看 S_t 已存什么。论文证明这种「value-axis erase mask」数学上破坏了 WY-form triangular chunk solver 的可行性,迫使 intra-chunk 求解退化为 d_v 个独立子问题,串行成本暴涨。 CARVE 用一个原则同时解决三个问题:所有门控只放在 key axis 上。一旦 erase gate 与 value index 解耦,WY-form 单一三角求解立刻恢复,chunk 并行训练才有可能。在此约束下,作者做了两件工程化改造: - **Content-aware erase via output reuse**:erase gate 的「内容信号」直接复用本就要写回 HBM 的张量——上一 chunk recurrent output 的均值 m_c(one-chunk staleness)。这个零成本信号过零初始化低秩投影 U_b 后送到 gate;U_b=0 时 CARVE 与 GDN-2 bit-identical,训练中 gate 慢慢激活,0.18% 偏差在所有 chunk length 上都 flat——论文用定理证明扰动量级是 O(1/√L); - **Scalar value write gate**:把 per-value 的 d_v 维 write-gate 投影换成「每头一个标量」w_{h,t}。在 H=12, d_v=768 下,单层 write-gate 参数从 589,824 砍到 9,216,mixer 总参 −19%,峰值显存 −13%。 效果由一组数据点支撑:1.3B / 100B tokens / FineWeb-Edu / H100 三 seed 平均。WikiText 困惑度 15.72(vs 15.90,−0.18,跨 seed 4.5σ 效应),hybrid 变体 15.41;9 个常识推理基准全领先平均 +0.63 pp;RULER 上 S-NIAH 与 MK-NIAH 每一档 context length 都刷新 SOTA,6 项真实召回任务全 top。 最关键的工程信号是「无硬件代价」:throughput 与 GDN-2 在 0.4% 测量噪声内持平。这意味着 CARVE 不是「更准但更慢」,而是「更准且更便宜」。当推理侧 KV-cache 已成为 LLM serving 真正的成本曲线(参考本月初 InfoKV、UltraQuant 一系列工作),能在不增加算力前提下把长上下文检索准确率再拉一档,对端侧 Agent、1M+ context RAG、多会话记忆系统都直接受益。 论文还附 6 条形式化定理(记忆容量、Lyapunov 稳定性、梯度流、表达力分离、Pareto 最优 chunk size、hybrid 最优性),把 delta-rule 系的「工程经验」往「可证明的架构原则」推了一步——LLM 高效架构今年最值得收藏的「fix a real bug」式论文之一。