Qwen3-Coder-Next:稀疏MoE架构重塑代码智能效率边界

5月8日,阿里Qwen团队发布Qwen3-Coder-Next,一款专为主动式编程(Agentic Coding)设计的80B参数MoE模型,每次前向传播仅激活3B参数,却具备与Dense模型相当的编程能力,引发开放权重社区广泛讨论。 核心技术在于Gated DeltaNet配合Gated Attention,将Attention的二次计算复杂度转为线性,使模型得以在维持262K token超长上下文的同时避免指数级延迟惩罚。在仓库级任务中,吞吐量比同级别Dense模型提升约10倍。训练阶段引入Best-Fit Packing策略,有效缓解了长上下文场景下的幻觉问题,保持了上下文信息的完整性。 该模型以Apache 2.0许可证开源,权重已在HuggingFace发布4个变体,并附有详细技术报告。在编程Agent成为行业竞争焦点的当下,小激活、大能力的稀疏MoE设计为本地部署提供了全新范式——开发者得以在消费级硬件上,以3B模型的资源消耗,获得80B量级的结构化代码理解能力,直接冲击了此前只有闭源大模型才能触及的能力天花板。