小米MiMo-V2.5-Pro开源：万亿参数MoE+1M上下文，长程Agent能力新突破

5月9日，小米正式开源MiMo-V2.5-Pro——一款拥有1.02T总参数、42B激活参数的混合专家（MoE）大模型，基于Hybrid Attention架构，上下文窗口达100万Token。核心突破在于长程一致性。官方披露的测试显示，在需要逾千步Tool Call的复杂软件工程任务中（北京大学编译原理课程项目：用Rust从零实现完整SysY编译器），MiMo-V2.5-Pro在4.3小时内完成672次工具调用，得分233/233，完美通过全部隐藏测试用例。这不是常规Benchmark跑分，而是真实的长程自主任务——模型需要持续自修正、跨阶段规划，中间任何一步的逻辑缺陷都会导致最终失败。架构层面，V2.5-Pro采用Hybrid Attention机制，将标准Transformer的自注意力与线性注意力混合，在保持全局建模能力的同时控制计算复杂度。作为MoE模型，1T总参数量中每次仅激活42B，配合1M上下文窗口，使得单次请求的计算成本远低于同等规模的Dense模型。小米同时开放了Hugging Face模型权重与API接口，开发者可直接调用。相比动辄需要数千GPU小时的封闭大模型，MiMo-V2.5-Pro让资源有限的团队也能体验到前沿的Agent能力。这不仅是模型性能的进步，更是开源生态向真正可用阶段迈进的标志。