Gated DeltaNet-2：NVIDIA 把线性注意力的「擦写」拆开，1.3B 模型长上下文检索直接拉升 27 分

线性注意力这几年的故事，本质上是在回答一个问题：怎么用固定大小的循环状态替代 softmax 注意力那个无界的 KV cache？Delta-rule 系列（Mamba-2、Gated DeltaNet、Kimi Delta Attention）已经给出漂亮的工程答案——Qwen3-Next、Qwen3.5-397B-A17B、Qwen3.6-27B 这些已经在跑的生产模型，都把 3:1 的「线性层 + 少量全注意力」当作默认骨架。但 NVIDIA 这次 (arXiv:2605.22791) 戳中了一个被忽略的细节：之前所有 delta-rule 模型都把「擦」和「写」绑在同一个标量门上，而这两件事作用在不同维度——擦发生在 key 轴上，写发生在 value 轴上。Gated DeltaNet-2 把它拆成 channel-wise 的 erase gate b_t 和 write gate w_t，配上 chunkwise WY 算法和 gate-aware 的反向传播，把 KDA 收为退化情形。数字很硬：在 1.3B 参数 / 100B FineWeb-Edu tokens 的公平对照里，GDN-2 同时压过 Gated DeltaNet、KDA、Mamba-3，最亮眼的是 RULER S-NIAH-3 从 63 拉到 90，长上下文多键检索能力是实打实上来了，而代码已经开源在 NVlabs/GatedDeltaNet-2。我的判断是，这件事比一篇「又一个线性注意力变体」更值得关注：它说明「架构创新」的边际收益正在从「能不能训」转向「能不能编辑记忆」——而后者正是 agentic LLM 在长任务里最容易崩的地方。下一步值得盯着的是它和 MoE、speculative decoding 的兼容性，以及 Qwen3.7 / Kimi K3 会不会直接抄这套门控。