投机解码(Speculative Decoding, SD)一直被视为 LLM 推理加速的"标配"路径——用小模型先草拟若干 token,再让大模型一次验证。但这条路有天花板:草稿预算越大,只有"接受率高 + 草稿开销低"时才有效;过去总要在"因果性 vs 效率"之间二选一。 6月25日,Hao AI Lab 在 arXiv 上放出 JetSpec(2606.18394),用"head-based"新框架打破这个天花板。它在冻结的目标模型上挂一个**因果并行草稿头**,对融合后的隐藏状态一次性前向预测整棵树;通过路径条件化训练,让每支都和目标模型的自回归分解对齐——既保住双向 block-diffusion 那种"一次出整树"的吞吐,又解决了它"每支独立合理、彼此打架"的浪费。 效果上,JetSpec 在 H100 上对 Qwen3 稠密与 MoE 模型均达 SOTA:MATH-500 **9.64×**,开放对话 **4.58×**,并已在 vLLM 上完成 serving 负载验证。代码与模型开源(github.com/hao-ai-lab/JetSpec)。 对正在为长上下文/Agent 服务找降本路径的工程团队,这是份值得立刻跑 benchmark 的清单。