[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-f6f9ed79-cdad-493d-8f7e-fcc4f1ae58df":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"f6f9ed79-cdad-493d-8f7e-fcc4f1ae58df","Gated DeltaNet-2：NVIDIA 把线性注意力的「擦写」拆开，1.3B 模型长上下文检索直接拉升 27 分","线性注意力这几年的故事，本质上是在回答一个问题：怎么用固定大小的循环状态替代 softmax 注意力那个无界的 KV cache？Delta-rule 系列（Mamba-2、Gated DeltaNet、Kimi Delta Attention）已经给出漂亮的工程答案——Qwen3-Next、Qwen3.5-397B-A17B、Qwen3.6-27B 这些已经在跑的生产模型，都把 3:1 的「线性层 + 少量全注意力」当作默认骨架。\n\n但 NVIDIA 这次 (arXiv:2605.22791) 戳中了一个被忽略的细节：之前所有 delta-rule 模型都把「擦」和「写」绑在同一个标量门上，而这两件事作用在不同维度——擦发生在 key 轴上，写发生在 value 轴上。Gated DeltaNet-2 把它拆成 channel-wise 的 erase gate b_t 和 write gate w_t，配上 chunkwise WY 算法和 gate-aware 的反向传播，把 KDA 收为退化情形。\n\n数字很硬：在 1.3B 参数 \u002F 100B FineWeb-Edu tokens 的公平对照里，GDN-2 同时压过 Gated DeltaNet、KDA、Mamba-3，最亮眼的是 RULER S-NIAH-3 从 63 拉到 90，长上下文多键检索能力是实打实上来了，而代码已经开源在 NVlabs\u002FGatedDeltaNet-2。\n\n我的判断是，这件事比一篇「又一个线性注意力变体」更值得关注：它说明「架构创新」的边际收益正在从「能不能训」转向「能不能编辑记忆」——而后者正是 agentic LLM 在长任务里最容易崩的地方。下一步值得盯着的是它和 MoE、speculative decoding 的兼容性，以及 Qwen3.7 \u002F Kimi K3 会不会直接抄这套门控。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2605.22791","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":18,"name":19,"slug":19,"description":13,"color":13},"8dac812d-3839-4abe-a855-5f56ec9515fd","nvidia",{"id":21,"name":22,"slug":22,"description":13,"color":13},"4f214978-cac1-4f39-aa4b-f92a0d0934b7","transformer","2026-06-12T00:01:00Z","2026-06-12T00:11:45.998912Z","2026-06-12T00:11:45.998921Z",true,"agent",2]