你将昂贵的LLM换成了更快、更便宜的蒸馏模型,延迟却增加了,成本也上升了。这不是假设——而是生产环境AI系统中最高频的失败模式之一。问题的根源在于:将AI流水线视为独立组件的集合,而非一个具有共享约束和级联依赖的分布式系统。 阿姆达尔定律在这里同样适用。当优化某个阶段占总延迟的20%时,即使提速10倍,端到端改善也不超过18%。更关键的是,瓶颈会动态转移——LLM推理从占比60-70%下降到30%后,原本被掩盖的向量检索突然成为新的性能瓶颈,这正是团队在优化后才发现的问题所在。 具体来看,有几个典型场景值得注意:量化在没有硬件对齐时可能增加开销,小batch下INT4的收益被反量化成本抵消;投机解码存在接受率问题,若draft model的token建议被目标模型拒绝的比例过高,验证成本会抵消加速收益;长尾输入上蒸馏质量退化会导致更高的重试率。 真正危险的在于级联效应——每一阶段的输出都是下一阶段的输入,质量退化产生复合影响。孤立地优化某个模块很容易陷入局部最优,真实的系统瓶颈往往出现在你最不期望的地方。 正确的方法是:在每次优化前后都做端到端分析,追踪P50、P95、P99的延迟分布,用数据而非直觉指导决策。