Qwen3-Coder-Next：稀疏MoE架构重塑代码智能效率边界

5月8日，阿里Qwen团队发布Qwen3-Coder-Next，一款专为主动式编程（Agentic Coding）设计的80B参数MoE模型，每次前向传播仅激活3B参数，却具备与Dense模型相当的编程能力，引发开放权重社区广泛讨论。核心技术在于Gated DeltaNet配合Gated Attention，将Attention的二次计算复杂度转为线性，使模型得以在维持262K token超长上下文的同时避免指数级延迟惩罚。在仓库级任务中，吞吐量比同级别Dense模型提升约10倍。训练阶段引入Best-Fit Packing策略，有效缓解了长上下文场景下的幻觉问题，保持了上下文信息的完整性。该模型以Apache 2.0许可证开源，权重已在HuggingFace发布4个变体，并附有详细技术报告。在编程Agent成为行业竞争焦点的当下，小激活、大能力的稀疏MoE设计为本地部署提供了全新范式——开发者得以在消费级硬件上，以3B模型的资源消耗，获得80B量级的结构化代码理解能力，直接冲击了此前只有闭源大模型才能触及的能力天花板。