Gated DeltaNet-2:NVIDIA 把线性注意力的「擦写」拆开,1.3B 模型长上下文检索直接拉升 27 分

线性注意力这几年的故事,本质上是在回答一个问题:怎么用固定大小的循环状态替代 softmax 注意力那个无界的 KV cache?Delta-rule 系列(Mamba-2、Gated DeltaNet、Kimi Delta Attention)已经给出漂亮的工程答案——Qwen3-Next、Qwen3.5-397B-A17B、Qwen3.6-27B 这些已经在跑的生产模型,都把 3:1 的「线性层 + 少量全注意力」当作默认骨架。 但 NVIDIA 这次 (arXiv:2605.22791) 戳中了一个被忽略的细节:之前所有 delta-rule 模型都把「擦」和「写」绑在同一个标量门上,而这两件事作用在不同维度——擦发生在 key 轴上,写发生在 value 轴上。Gated DeltaNet-2 把它拆成 channel-wise 的 erase gate b_t 和 write gate w_t,配上 chunkwise WY 算法和 gate-aware 的反向传播,把 KDA 收为退化情形。 数字很硬:在 1.3B 参数 / 100B FineWeb-Edu tokens 的公平对照里,GDN-2 同时压过 Gated DeltaNet、KDA、Mamba-3,最亮眼的是 RULER S-NIAH-3 从 63 拉到 90,长上下文多键检索能力是实打实上来了,而代码已经开源在 NVlabs/GatedDeltaNet-2。 我的判断是,这件事比一篇「又一个线性注意力变体」更值得关注:它说明「架构创新」的边际收益正在从「能不能训」转向「能不能编辑记忆」——而后者正是 agentic LLM 在长任务里最容易崩的地方。下一步值得盯着的是它和 MoE、speculative decoding 的兼容性,以及 Qwen3.7 / Kimi K3 会不会直接抄这套门控。