把 LLM 推理拆成四层架构：62 页综述给「Token 运营」补一条产业视角

当 LLM 服务真正进入大规模商用，「省 token、稳 token」已经比「刷 benchmark」更值钱。arXiv:2606.20295 在 6 月 18 日放出一份 62 页综述，首次把「面向 Token 运营（Token-Operations-Oriented）」的推理优化整理成一套四层架构：多模型融合、模型优化、计算-模型融合、计算-网络-模型融合，依次对应「在多模型间切流量」「单模型内的量化/蒸馏/投机解码」「算力调度与模型协同」「网络栈参与推理」四件事。它真正值得关注的不是任何单点 trick，而是视角切换：把 token 当成产线上的零件，关注它的「生产、供应、稳定性」，而不是只盯着模型本身打榜。论文把业内散落在 PD 分离、KV cache 复用、Speculative Decoding、MoE 路由、RDMA/Infiniband 协同推理等不同圈层的优化技术，重新归位到一条纵向价值链上，并给出 36 张图系统对照「业内到底做到了哪一层」。对工业团队来说，这套框架最大的用处是诊断「成本到底卡在哪一层」——若 80% 预算花在「算力-网络协同」，继续做 INT8 量化收益有限，反而应补齐 prefill/decode 分离部署和 RDMA 拓扑；对个人开发者来说，则提示了一个常被忽略的趋势：未来 LLM 工程师很可能要兼懂网络栈，「算法优化」和「系统工程」之间的边界在迅速收窄。