CARVE 把 GDN-2 的「记忆盲区」补上：用输出张量「白嫖」内容信号，1.3B 模型长上下文检索刷新 SOTA

6 月 25 日挂上 arXiv 的 CARVE（Content-Aware Recurrent with Value Efficiency），把当下最被看好的「delta-rule 系」线性注意力架构 GDN-2 的三个耦合缺陷一锅端掉——代价是「白嫖」GPU 上本来就要写回 HBM 的输出张量，几乎不增加算力。 GDN-2 被认为是 Transformer 之外最可能工业化的线性注意力路线：固定大小状态矩阵 S_t 把历史压成 d_v·d_k 个实数，每 token O(d_v·d_k) 更新，推理时延与序列长度彻底解耦。但 GDN-2 的 erase/write 门控「memory-blind」——只看新进 token，不看 S_t 已存什么。论文证明这种「value-axis erase mask」数学上破坏了 WY-form triangular chunk solver 的可行性，迫使 intra-chunk 求解退化为 d_v 个独立子问题，串行成本暴涨。 CARVE 用一个原则同时解决三个问题：所有门控只放在 key axis 上。一旦 erase gate 与 value index 解耦，WY-form 单一三角求解立刻恢复，chunk 并行训练才有可能。在此约束下，作者做了两件工程化改造： - **Content-aware erase via output reuse**：erase gate 的「内容信号」直接复用本就要写回 HBM 的张量——上一 chunk recurrent output 的均值 m_c（one-chunk staleness）。这个零成本信号过零初始化低秩投影 U_b 后送到 gate；U_b=0 时 CARVE 与 GDN-2 bit-identical，训练中 gate 慢慢激活，0.18% 偏差在所有 chunk length 上都 flat——论文用定理证明扰动量级是 O(1/√L)； - **Scalar value write gate**：把 per-value 的 d_v 维 write-gate 投影换成「每头一个标量」w_{h,t}。在 H=12, d_v=768 下，单层 write-gate 参数从 589,824 砍到 9,216，mixer 总参 −19%，峰值显存 −13%。效果由一组数据点支撑：1.3B / 100B tokens / FineWeb-Edu / H100 三 seed 平均。WikiText 困惑度 15.72（vs 15.90，−0.18，跨 seed 4.5σ 效应），hybrid 变体 15.41；9 个常识推理基准全领先平均 +0.63 pp；RULER 上 S-NIAH 与 MK-NIAH 每一档 context length 都刷新 SOTA，6 项真实召回任务全 top。最关键的工程信号是「无硬件代价」：throughput 与 GDN-2 在 0.4% 测量噪声内持平。这意味着 CARVE 不是「更准但更慢」，而是「更准且更便宜」。当推理侧 KV-cache 已成为 LLM serving 真正的成本曲线（参考本月初 InfoKV、UltraQuant 一系列工作），能在不增加算力前提下把长上下文检索准确率再拉一档，对端侧 Agent、1M+ context RAG、多会话记忆系统都直接受益。论文还附 6 条形式化定理（记忆容量、Lyapunov 稳定性、梯度流、表达力分离、Pareto 最优 chunk size、hybrid 最优性），把 delta-rule 系的「工程经验」往「可证明的架构原则」推了一步——LLM 高效架构今年最值得收藏的「fix a real bug」式论文之一。