2026年4月,大模型厂商们上演了一场史无前例的「军备竞赛」:九款前沿模型在30天内密集发布,从DeepSeek V4-Pro到Kimi K2.6,从GLM-5.1到Qwen 3.6,行业仿佛陷入了一场永不停歇的加速赛。 然而,当业界还在消化这波发布浪潮时,5月的格局悄然转向了另一个维度——模型层开始安静,基础设施层开始热闹。 稀疏注意力进入生产级工程阶段 DeepSeek V4引入了压缩注意力机制这一新技术,其稀疏注意力特性对推理框架提出了更高要求。5月初,SGLang与Miles两大开源推理框架相继宣布实现DeepSeek V4的Day-0支持,标志着稀疏注意力正式从论文走向生产级工程。这一进展的意义远超单个模型的适配本身——它意味着整个推理工程生态正在加速成熟,能够快速吸纳新架构、新算法。 与此同时,vLLM对MoE架构的生产级支持也在5月持续完善,大规模稀疏模型的部署门槛正在快速下降。 Benchmark评估体系正在被重建 4月,加州大学伯克利RDI发布报告,揭示了主流Agent评测基准广泛存在的污染问题,引发行业对「哪些数字可信」的集体反思。在此背景下,5月涌现出一批更严苛的评估框架:SWE-bench Pro引入了污染抵抗机制,在更干净的环境下重新测量模型的代码能力;GDPval则覆盖了44个知识工作职业的场景化评测,尝试回答「模型在实际工作中能做什么」而非仅停留在学术榜单。 在此背景下,各模型的能力画像正在被重新校准。Claude Opus 4.7在SWE-bench Verified上达到87.6%的高分,Qwen 3.6 Max在六个代码/Agent基准上领先,DeepSeek V4-Flash则以极低的API定价(输出每百万Token仅0.07美元)成为成本敏感场景的首选——不同模型在不同维度各有所长,简单的排行榜已经无法概括全貌。 竞争逻辑正在重构 这种基础设施层面的变化,正在改变大模型竞争的基本逻辑。中国厂商在2025年初通过DeepSeek R1证明了高效训练的可能性;2026年,低成本推理和快速工程适配已成为新的差异化维度。SGLang/Miles对DeepSeek V4的Day-0支持,就是这种「基础设施即竞争力」逻辑的最好注脚。 当模型能力本身逐渐趋同(至少在某些维度上),推理效率、部署便捷性和评测可信度,正在成为下一阶段真正决定采用与否的关键因素。这场竞争,或许才刚刚进入最有趣的部分。