稀疏MoE+投机解码：开源模型首次在推理速度上超越闭源方案

大模型评测平台Artificial Analysis最新Output Speed榜单显示，阶跃星辰Step 3.7 Flash以409 tokens/s的输出速度位列主流模型第一，端到端响应时长、智能效率与速度价格比等指标全面领先。排在前面的，是仅有11B激活参数的稀疏MoE模型。这背后的技术组合值得关注：稀疏MoE架构让198B参数每次仅激活约11B；3路多Token预测（MTP-3）进行投机解码，一次预测多个Token而非逐个生成，从根本上减少推理延迟；vLLM专门优化支持FP8、NVFP4等低精度格式。更值得关注的是，这个结果打破了速度与智能不可兼得的二元困局——Step 3.7 Flash在SimpleVQA（Search）取得79.2分、V*（Python）达95.3分，均处于视觉理解前沿水准。作为Apache 2.0开源模型，任何人都能自由部署和商用，开源方案在推理速度上率先突破，给闭源厂商的压力才刚刚开始。