JetSpec 把投机解码的「天花板」敲开：并行树形草稿让 H100 跑出 9.64× 加速

投机解码（Speculative Decoding, SD）一直被视为 LLM 推理加速的"标配"路径——用小模型先草拟若干 token，再让大模型一次验证。但这条路有天花板：草稿预算越大，只有"接受率高 + 草稿开销低"时才有效；过去总要在"因果性 vs 效率"之间二选一。 6月25日，Hao AI Lab 在 arXiv 上放出 JetSpec（2606.18394），用"head-based"新框架打破这个天花板。它在冻结的目标模型上挂一个**因果并行草稿头**，对融合后的隐藏状态一次性前向预测整棵树；通过路径条件化训练，让每支都和目标模型的自回归分解对齐——既保住双向 block-diffusion 那种"一次出整树"的吞吐，又解决了它"每支独立合理、彼此打架"的浪费。效果上，JetSpec 在 H100 上对 Qwen3 稠密与 MoE 模型均达 SOTA：MATH-500 **9.64×**，开放对话 **4.58×**，并已在 vLLM 上完成 serving 负载验证。代码与模型开源（github.com/hao-ai-lab/JetSpec）。对正在为长上下文/Agent 服务找降本路径的工程团队，这是份值得立刻跑 benchmark 的清单。