LLM推理服务正在淘汰「启发式」：运筹学视角下的新优化范式

LLM推理服务规模已达日均数十亿次请求，但核心算法仍沿用通用分布式系统的启发式策略——路由用最短队列、调度用FIFO、缓存用LRU。arXiv一篇5月2日发表的论文指出，LLM推理的结构独特性（动态增长的KV Cache、prefill-decode相位不对称、未知输出长度、连续批处理）使得通用启发式错失了大量优化空间。该论文认为，运筹学与ML系统的交叉领域已证明，原则性方法可以在提供理论保证的同时匹配或超越启发式性能。具体来说，当前LLM serving系统（如vLLM和SGLang）的核心算法几乎没变：请求路由还是最短队列或轮询，调度默认FIFO，KV Cache回收用LRU。这些通用策略完全忽视了LLM推理的特殊结构。论文主张，必须为LLM serving开发能够捕捉这些特征的数学模型，设计具有可证明性能保证的算法，而非在某些场景有效但会在其他场景不可预测地失败的启发式方法。在MoE负载均衡场景中这个问题尤为突出：当token集中在少数热门专家时，托管这些专家的GPU成为瓶颈，其他GPU只能空闲等待。当前主要的平衡策略是辅助损失函数，惩罚token跨专家的不均匀分布，但这会引入与主语言建模目标冲突的梯度干扰。论文认为，需要更原则性的方法来处理这类问题。从工业角度看，这篇论文的价值在于它不是空谈理论——它明确指出了LLM serving中存在的具体决策问题（请求路由、调度、缓存管理、负载均衡、容量规划、资源分配），这些问题都适合形式化分析。当vLLM和SGLang等推理引擎架构趋于稳定，算法层面的创新将成为持久的投资，不会因为系统增量更新而需要重新设计。