Llama 4 Scout：Meta 首款 MoE 开源 VLM，10M 上下文重新定义边缘推理

4月中旬，Meta 正式发布 Llama 4 系列，首次将 Mixture-of-Experts（MoE）架构引入 Llama 家族。系列中定位最「轻」的 Scout（17B 激活参数 / 109B 总参）已开源，引发开发者社区广泛讨论——不是因为它最大，而是因为它首次让十亿级上下文 + 视觉理解 + 单卡部署成为可能。 Scout 最引人注目的技术指标是 10M token 上下文窗口。传统 RoPE 在超长序列上信噪比下降明显，Meta 的解法是 iRoPE：在第 1、2、3 层使用标准 RoPE 保留局部 token 顺序；在第 4 层切换为 NoPE，移除绝对位置编码，让注意力头对整个因果掩码做全局感知。MoE 稀疏激活设计让 Scout 虽有 109B 总参，但每个 token 只需激活 17B——用 17B 算力获得近似 100B+ 模型的知识容量。基准测试显示：MMLU-Pro Maverick 80.5 分超越 GPT-4o（78.0），ChartQA/DocVQA 创同规模 SOTA，Scout 在 10M token NIAH 测试维持 >99% 准确率，而竞品在 128K–1M 区间就开始「撞墙」。但在纯 STEM 推理上 OpenAI o 系列仍领先。 Meta 同步开源了 Llama Guard 4（12B）和 Prompt Guard 2（86M），构成四层安全 pipeline。Llama 4 Scout 的出现把一个信号进一步强化：开源模型的竞争焦点正从「参数量」转向「效率密度」。