Llama 4：Meta用MoE架构重新定义开源大模型效率边界

2026年4月，Meta发布Llama 4开源大模型家族，全面转向Mixture-of-Experts（MoE）混合专家架构，一改往日dense transformer路线。Llama 4系列在保持开源权重可获取的同时，在多项基准上逼近甚至超越GPT-4o、Gemini 2.0 Flash等闭源头部模型，被视为开源大模型史上最重要的一次架构升级。 Llama 4家族包含两款主力模型：Llama 4 Scout与Llama 4 Maverick。Scout总参数量109B，每次推理仅激活17B参数（16位专家），支持高达1000万token超长上下文，可一次性处理整个代码库或整本书籍级别的任务。旗舰模型Maverick总参数400B，同样每次只激活17B（128位专家），在LMArena基准上突破1400分，超越GPT-4o和Gemini 2.0 Flash。 MoE架构的核心逻辑是稀疏激活：并非每个token都经过全部400B参数计算，而是动态路由到最相关的专家子网络。一台8×H100 GPU节点即可跑出GPT-4级别质量，推理成本降至闭源模型的五分之一左右。Scout在Int4量化后甚至可单卡H100运行，大幅降低本地部署门槛。开源权重意味着可自由下载、量化和fine-tune。4月以来，Together AI、Fireworks AI等主流推理平台均已上线Llama 4 API，Ollama也支持本地一键拉取。对受限于预算或数据隐私的团队，Llama 4 Maverick提供了可比较的能力同时成本大幅降低，这本身就是一次效率革命。从技术演进看，Llama 4验证了MoE在超大规模开源模型上的可行性。可以预见，稀疏激活将成为开源大模型的主流方向。