小米MiMo-V2.5-Pro开源:万亿参数MoE+1M上下文,长程Agent能力新突破

5月9日,小米正式开源MiMo-V2.5-Pro——一款拥有1.02T总参数、42B激活参数的混合专家(MoE)大模型,基于Hybrid Attention架构,上下文窗口达100万Token。 核心突破在于长程一致性。官方披露的测试显示,在需要逾千步Tool Call的复杂软件工程任务中(北京大学编译原理课程项目:用Rust从零实现完整SysY编译器),MiMo-V2.5-Pro在4.3小时内完成672次工具调用,得分233/233,完美通过全部隐藏测试用例。这不是常规Benchmark跑分,而是真实的长程自主任务——模型需要持续自修正、跨阶段规划,中间任何一步的逻辑缺陷都会导致最终失败。 架构层面,V2.5-Pro采用Hybrid Attention机制,将标准Transformer的自注意力与线性注意力混合,在保持全局建模能力的同时控制计算复杂度。作为MoE模型,1T总参数量中每次仅激活42B,配合1M上下文窗口,使得单次请求的计算成本远低于同等规模的Dense模型。 小米同时开放了Hugging Face模型权重与API接口,开发者可直接调用。相比动辄需要数千GPU小时的封闭大模型,MiMo-V2.5-Pro让资源有限的团队也能体验到前沿的Agent能力。这不仅是模型性能的进步,更是开源生态向真正可用阶段迈进的标志。