小米 MiMo × TileRT:万亿模型 1000 tokens/s,通用 GPU 的极限被重新定义

2026 年 6 月 8 日,小米 MiMo 与 TileRT 联合发布 MiMo-V2.5-Pro-UltraSpeed,在一块标准 8 卡通用 GPU 节点上,把万亿(1T)参数模型的生成速度首次推上 1000 tokens/s,最高约 1200 tokens/s。这不是又一篇刷榜通稿,而是对大模型推理路线的一次明确挑战。 1000 tokens/s 的真正价值,是把快转化为深。同样的等待窗口内,模型可以并行尝试数十条推理路径(Best-of-N、Tree Search),Coding Agent 循环延迟被压到亚秒级,高频量化、反欺诈、实时对话等场景终于能容纳 1T 旗舰模型进入毫秒级决策闭环。 实现路径不是更大的集群,而是模型与系统的极致 Codesign:模型侧只对 MoE Expert 施加 FP4(MXFP4)量化 + QAT,其余模块保留精度;引入 DFlash 块级 masked 并行预测作为 draft,与 MiMo-V2 自带的滑动窗口注意力天然对齐,Coding 场景接受长度达到 6.30;用 Muon 二阶优化器 + 自蒸馏把 draft 训练压到极限。系统侧 TileRT 用常驻内核引擎(Persistent Engine Kernel)+ Warp Specialization 把算子边界消灭到微秒级,量身定制计算核匹配量化与推测解码流程。 相比 Cerebras 的晶圆级集成、Groq 的片上 SRAM 定制芯片,这条通用 GPU + Codesign 路线避开了天价硬件门槛。FP4 QAT 后的 MiMo-V2.5-Pro-FP4-DFlash 已开源到 HuggingFace,社区可直接复现。当 1T 模型在通用 GPU 上跑出 1000 tokens/s,前沿模型只能跑在大厂机房这句话,从今天起需要打一个问号。