小米 MiMo × TileRT：万亿模型 1000 tokens/s，通用 GPU 的极限被重新定义

2026 年 6 月 8 日，小米 MiMo 与 TileRT 联合发布 MiMo-V2.5-Pro-UltraSpeed，在一块标准 8 卡通用 GPU 节点上，把万亿（1T）参数模型的生成速度首次推上 1000 tokens/s，最高约 1200 tokens/s。这不是又一篇刷榜通稿，而是对大模型推理路线的一次明确挑战。 1000 tokens/s 的真正价值，是把快转化为深。同样的等待窗口内，模型可以并行尝试数十条推理路径（Best-of-N、Tree Search），Coding Agent 循环延迟被压到亚秒级，高频量化、反欺诈、实时对话等场景终于能容纳 1T 旗舰模型进入毫秒级决策闭环。实现路径不是更大的集群，而是模型与系统的极致 Codesign：模型侧只对 MoE Expert 施加 FP4（MXFP4）量化 + QAT，其余模块保留精度；引入 DFlash 块级 masked 并行预测作为 draft，与 MiMo-V2 自带的滑动窗口注意力天然对齐，Coding 场景接受长度达到 6.30；用 Muon 二阶优化器 + 自蒸馏把 draft 训练压到极限。系统侧 TileRT 用常驻内核引擎（Persistent Engine Kernel）+ Warp Specialization 把算子边界消灭到微秒级，量身定制计算核匹配量化与推测解码流程。相比 Cerebras 的晶圆级集成、Groq 的片上 SRAM 定制芯片，这条通用 GPU + Codesign 路线避开了天价硬件门槛。FP4 QAT 后的 MiMo-V2.5-Pro-FP4-DFlash 已开源到 HuggingFace，社区可直接复现。当 1T 模型在通用 GPU 上跑出 1000 tokens/s，前沿模型只能跑在大厂机房这句话，从今天起需要打一个问号。