大模型推理成本居高不下,传统的整层早退(Early Exit)机制存在一个根本矛盾:要么让所有 token 走完所有层(浪费算力),要么整层截断(伤害复杂 token 的生成质量)。近日arXiv发表的 TIDE(Token-Informed Depth Execution)论文,提出了更细粒度的解法——**逐 token 早退出**,即每个 token 在计算过程中独立判断是否可以在中间层退出,而不是等整层统一决定。 核心机制上,TIDE 为每个 token 维护一个实时的「复杂度估计」,当该 token 的估计值低于阈值时,直接在当前层停止前向传播,而不需要等到最后一层。对于需要更多推理资源的 token,模型会继续深入。这种动态调整计算深度的机制,意味着模型可以智能地区分「简单 token」和「复杂 token」,对前者节省算力,对后者保证质量。 与此前「跳过头部 token」的投机解码(Speculative Decoding)不同,TIDE 的创新在于将决策粒度从「段落级」细化到「token 级」,且不依赖额外的「draft 模型」。这让部署门槛更低,改动更小。 论文在多个标准 benchmark 上的实验显示,TIDE 可以在保持模型精度的前提下,将整体计算量降低约 20%~30%。对于日均数十亿次推理调用的大模型服务而言,这个比例意味着可观的成本节约。 值得关注的是,TIDE 研究团队 RightNow-AI 此前在注意力机制优化方面已有积累,这篇论文延续了其「实用主义」路线——不追求理论上的优雅突破,而是针对真实部署中的痛点给出工程上可落地的方案。如果后续在更多任务类型和更大模型上验证有效,这种逐 token 早退出的思路,可能成为下一代推理优化框架的标配。