稀疏MoE+投机解码:开源模型首次在推理速度上超越闭源方案

大模型评测平台Artificial Analysis最新Output Speed榜单显示,阶跃星辰Step 3.7 Flash以409 tokens/s的输出速度位列主流模型第一,端到端响应时长、智能效率与速度价格比等指标全面领先。排在前面的,是仅有11B激活参数的稀疏MoE模型。这背后的技术组合值得关注:稀疏MoE架构让198B参数每次仅激活约11B;3路多Token预测(MTP-3)进行投机解码,一次预测多个Token而非逐个生成,从根本上减少推理延迟;vLLM专门优化支持FP8、NVFP4等低精度格式。更值得关注的是,这个结果打破了速度与智能不可兼得的二元困局——Step 3.7 Flash在SimpleVQA(Search)取得79.2分、V*(Python)达95.3分,均处于视觉理解前沿水准。作为Apache 2.0开源模型,任何人都能自由部署和商用,开源方案在推理速度上率先突破,给闭源厂商的压力才刚刚开始。