4月25日,LMSYS 宣布 SGLang 和 Miles 两大开源推理引擎同步实现 DeepSeek V4 的 Day-0 支持。这不仅是发布速度的竞争,更是稀疏注意力工程落地的首次完整呈现。\n\nDeepSeek V4 采用混合稀疏注意力机制:每层结合滑动窗口注意力(SWA)与两种压缩机制(C4 压缩或 top-512 稀疏),在 1M token 上下文下将单 token 推理 FLOPs 降至 V3.2 的 27%,KV cache 降至 10%。配合 Manifold-Constrained Hyper-Connections(mHC)改善梯度流,以及 FP4 MoE experts 实现高效服务,V4 实现了稀疏注意力从研究到生产的完整闭环。\n\n在工程优化层面,SGLang 集成 ShadowRadix 原生前缀缓存、HiSparse CPU-extended KV 内存扩展、MTP 投机解码与 Flash Compressor 等多项技术,将稀疏注意力与前缀缓存结合,解决了超长上下文下的 KV cache 内存瓶颈问题。这种 Day-0 支持的完整度——从推理到 RL 训练全链路覆盖,在开源社区中极为罕见。\n\n核心观点:稀疏注意力已不再是实验室中的理论方案,而是进入了生产级工程优化阶段。V4 1M token 上下文下 10% KV cache 的效率提升,对运行 RAG、多轮 agent 场景的团队是基础设施成本层面的实质改善。这条路一旦打开,2026 年超长上下文推理的竞争焦点将从模型参数规模转向稀疏注意力工程能力。