Multi-Token Prediction(MTP)头已经被 DeepSeek-V3、Llama-3 当成标配——它把训练数据密度提上去,还能直接挂成 self-speculative decoding 的草稿器。但现有实现有一个被默认的假设:树形注意力的拓扑在整段生成中是静态的,推测深度不会跟着上下文变。 这与自然语言的熵分布天然不匹配。一段连贯叙事(低熵)值得把推测推到 4-5 步,草稿几乎都能被验证器接住;进入逻辑分支或代码边界(高熵),同样的深度会让验证计算白白浪费在大概率被拒的草稿上。 Carrie Chen 等人的 EntMTP(arXiv:2606.27550) 给出优雅解法:把局部生成熵作为在线调度信号,在一组任务相关的 Pareto 最优树之间动态切换。它完全 training-free,把"哪棵树适合当前上下文"做成运行时决策——用 task-specific Pareto 树作为候选池,根据滑动窗口内的熵估计选择当下的拓扑深度。 效果算不上惊艳但足够说明问题:在 Humaneval、ShareGPT、GSM8k、Litbench 四个基准上对 Hydra 稳定拿到 1.15× 加速,对 Medusa 峰值 1.36×。提速不算激进,但它没引入额外训练成本,也没改模型权重,可直接挂到任何已训练 MTP 头的生产模型上。 这条路线真正值得关注的是它改变了"speculative decoding 工程优化"的主战场:之前大家比的是"我能写出更复杂的树"(JetSpec 的并行树草稿、DSpark 的半自回归调度),现在变成"我能更聪明地选哪棵树"。当加速比逼近硬件上限,软件层的下一个红利是调度智能,而不是更深的草稿。EntMTP 样本虽小,却提示 MTP 推理栈下一步的演化方向——context-aware 的运行时策略层,正在变成推理优化的新前哨。