Llama 4 Scout:Meta 首款 MoE 开源 VLM,10M 上下文重新定义边缘推理

4月中旬,Meta 正式发布 Llama 4 系列,首次将 Mixture-of-Experts(MoE)架构引入 Llama 家族。系列中定位最「轻」的 Scout(17B 激活参数 / 109B 总参)已开源,引发开发者社区广泛讨论——不是因为它最大,而是因为它首次让十亿级上下文 + 视觉理解 + 单卡部署成为可能。 Scout 最引人注目的技术指标是 10M token 上下文窗口。传统 RoPE 在超长序列上信噪比下降明显,Meta 的解法是 iRoPE:在第 1、2、3 层使用标准 RoPE 保留局部 token 顺序;在第 4 层切换为 NoPE,移除绝对位置编码,让注意力头对整个因果掩码做全局感知。MoE 稀疏激活设计让 Scout 虽有 109B 总参,但每个 token 只需激活 17B——用 17B 算力获得近似 100B+ 模型的知识容量。 基准测试显示:MMLU-Pro Maverick 80.5 分超越 GPT-4o(78.0),ChartQA/DocVQA 创同规模 SOTA,Scout 在 10M token NIAH 测试维持 >99% 准确率,而竞品在 128K–1M 区间就开始「撞墙」。但在纯 STEM 推理上 OpenAI o 系列仍领先。 Meta 同步开源了 Llama Guard 4(12B)和 Prompt Guard 2(86M),构成四层安全 pipeline。Llama 4 Scout 的出现把一个信号进一步强化:开源模型的竞争焦点正从「参数量」转向「效率密度」。