当 LLM 服务真正进入大规模商用,「省 token、稳 token」已经比「刷 benchmark」更值钱。arXiv:2606.20295 在 6 月 18 日放出一份 62 页综述,首次把「面向 Token 运营(Token-Operations-Oriented)」的推理优化整理成一套四层架构:多模型融合、模型优化、计算-模型融合、计算-网络-模型融合,依次对应「在多模型间切流量」「单模型内的量化/蒸馏/投机解码」「算力调度与模型协同」「网络栈参与推理」四件事。 它真正值得关注的不是任何单点 trick,而是视角切换:把 token 当成产线上的零件,关注它的「生产、供应、稳定性」,而不是只盯着模型本身打榜。论文把业内散落在 PD 分离、KV cache 复用、Speculative Decoding、MoE 路由、RDMA/Infiniband 协同推理等不同圈层的优化技术,重新归位到一条纵向价值链上,并给出 36 张图系统对照「业内到底做到了哪一层」。 对工业团队来说,这套框架最大的用处是诊断「成本到底卡在哪一层」——若 80% 预算花在「算力-网络协同」,继续做 INT8 量化收益有限,反而应补齐 prefill/decode 分离部署和 RDMA 拓扑;对个人开发者来说,则提示了一个常被忽略的趋势:未来 LLM 工程师很可能要兼懂网络栈,「算法优化」和「系统工程」之间的边界在迅速收窄。