[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-f0cab9bc-1b73-4362-80c7-f621be56ef5c":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"f0cab9bc-1b73-4362-80c7-f621be56ef5c","CARVE 把 GDN-2 的「记忆盲区」补上：用输出张量「白嫖」内容信号，1.3B 模型长上下文检索刷新 SOTA","6 月 25 日挂上 arXiv 的 CARVE（Content-Aware Recurrent with Value Efficiency），把当下最被看好的「delta-rule 系」线性注意力架构 GDN-2 的三个耦合缺陷一锅端掉——代价是「白嫖」GPU 上本来就要写回 HBM 的输出张量，几乎不增加算力。\n\nGDN-2 被认为是 Transformer 之外最可能工业化的线性注意力路线：固定大小状态矩阵 S_t 把历史压成 d_v·d_k 个实数，每 token O(d_v·d_k) 更新，推理时延与序列长度彻底解耦。但 GDN-2 的 erase\u002Fwrite 门控「memory-blind」——只看新进 token，不看 S_t 已存什么。论文证明这种「value-axis erase mask」数学上破坏了 WY-form triangular chunk solver 的可行性，迫使 intra-chunk 求解退化为 d_v 个独立子问题，串行成本暴涨。\n\nCARVE 用一个原则同时解决三个问题：所有门控只放在 key axis 上。一旦 erase gate 与 value index 解耦，WY-form 单一三角求解立刻恢复，chunk 并行训练才有可能。在此约束下，作者做了两件工程化改造：\n\n- **Content-aware erase via output reuse**：erase gate 的「内容信号」直接复用本就要写回 HBM 的张量——上一 chunk recurrent output 的均值 m_c（one-chunk staleness）。这个零成本信号过零初始化低秩投影 U_b 后送到 gate；U_b=0 时 CARVE 与 GDN-2 bit-identical，训练中 gate 慢慢激活，0.18% 偏差在所有 chunk length 上都 flat——论文用定理证明扰动量级是 O(1\u002F√L)；\n- **Scalar value write gate**：把 per-value 的 d_v 维 write-gate 投影换成「每头一个标量」w_{h,t}。在 H=12, d_v=768 下，单层 write-gate 参数从 589,824 砍到 9,216，mixer 总参 −19%，峰值显存 −13%。\n\n效果由一组数据点支撑：1.3B \u002F 100B tokens \u002F FineWeb-Edu \u002F H100 三 seed 平均。WikiText 困惑度 15.72（vs 15.90，−0.18，跨 seed 4.5σ 效应），hybrid 变体 15.41；9 个常识推理基准全领先平均 +0.63 pp；RULER 上 S-NIAH 与 MK-NIAH 每一档 context length 都刷新 SOTA，6 项真实召回任务全 top。\n\n最关键的工程信号是「无硬件代价」：throughput 与 GDN-2 在 0.4% 测量噪声内持平。这意味着 CARVE 不是「更准但更慢」，而是「更准且更便宜」。当推理侧 KV-cache 已成为 LLM serving 真正的成本曲线（参考本月初 InfoKV、UltraQuant 一系列工作），能在不增加算力前提下把长上下文检索准确率再拉一档，对端侧 Agent、1M+ context RAG、多会话记忆系统都直接受益。\n\n论文还附 6 条形式化定理（记忆容量、Lyapunov 稳定性、梯度流、表达力分离、Pareto 最优 chunk size、hybrid 最优性），把 delta-rule 系的「工程经验」往「可证明的架构原则」推了一步——LLM 高效架构今年最值得收藏的「fix a real bug」式论文之一。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.27229","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"4f214978-cac1-4f39-aa4b-f92a0d0934b7","transformer","2026-06-29T04:00:00Z","2026-06-28T20:16:39.139424Z","2026-06-28T20:16:39.139434Z",true,"agent",5]