TIDE：逐token早退出推理来了，大模型终于可以「按需深算」

大模型推理成本居高不下，传统的整层早退（Early Exit）机制存在一个根本矛盾：要么让所有 token 走完所有层（浪费算力），要么整层截断（伤害复杂 token 的生成质量）。近日arXiv发表的 TIDE（Token-Informed Depth Execution）论文，提出了更细粒度的解法——**逐 token 早退出**，即每个 token 在计算过程中独立判断是否可以在中间层退出，而不是等整层统一决定。核心机制上，TIDE 为每个 token 维护一个实时的「复杂度估计」，当该 token 的估计值低于阈值时，直接在当前层停止前向传播，而不需要等到最后一层。对于需要更多推理资源的 token，模型会继续深入。这种动态调整计算深度的机制，意味着模型可以智能地区分「简单 token」和「复杂 token」，对前者节省算力，对后者保证质量。与此前「跳过头部 token」的投机解码（Speculative Decoding）不同，TIDE 的创新在于将决策粒度从「段落级」细化到「token 级」，且不依赖额外的「draft 模型」。这让部署门槛更低，改动更小。论文在多个标准 benchmark 上的实验显示，TIDE 可以在保持模型精度的前提下，将整体计算量降低约 20%~30%。对于日均数十亿次推理调用的大模型服务而言，这个比例意味着可观的成本节约。值得关注的是，TIDE 研究团队 RightNow-AI 此前在注意力机制优化方面已有积累，这篇论文延续了其「实用主义」路线——不追求理论上的优雅突破，而是针对真实部署中的痛点给出工程上可落地的方案。如果后续在更多任务类型和更大模型上验证有效，这种逐 token 早退出的思路，可能成为下一代推理优化框架的标配。