小米MiMo-V2.5首度揭秘:五大推理优化技术如何实现「降价不亏本」

小米MiMo大模型团队近日首次系统披露了MiMo-V2.5系列API永久降价背后的技术路径。外界看到的是一次次「骨折价」,团队要解决的却是如何在降价后依然维持收支平衡这道难题。 V2.5版本实现了五大核心突破。**KVCache双池+SWA-aware前缀树**解决了长prompt场景下的缓存碎片化问题,将前缀复用率显著提升;**GCache分布式缓存**则在跨请求层面做共享,减少重复计算。**KVCache亲和调度**根据请求特征动态分配缓存资源,提升显存利用率。 在Decode阶段,团队引入了**MTP(Multi-Token Prediction)加速**,一次推理可输出多个token,直接提升吞吐量。**多模态推理优化**则针对图像编码路径做了专门加速,降低端到端延迟。 从实现路径看,小米走的是一条「软硬协同优化」路线——不依赖单点突破,而是从缓存策略、调度逻辑到模型结构全链路协同。这也解释了为何V2.5能在保持效果的同时支撑起更低的价格。 值得关注的是,这套优化方案并不依赖特殊硬件,正是因为如此,MiMo才能在降价后依然保持商业可持续。对行业而言,这种「工程密集型降本」路径比单纯靠硬件红利或压缩参数更能持续。 小米同时启动了「百万亿Token创造者激励计划」,目前已有超54万开发者申请,累计发放100万亿免费Token。这一规模说明降价策略已真正触达用户,而非单纯的市场噱头。团队下一步的方向,应该是让这些技术优化在生产环境中的持续验证。