[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-93d568f4-6452-4949-8aa7-d0b162e0fc9b":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":20,"created_at":21,"modified_at":22,"is_published":23,"publish_type":24,"image_url":13,"view_count":25},"93d568f4-6452-4949-8aa7-d0b162e0fc9b","TIDE：逐token早退出推理来了，大模型终于可以「按需深算」","大模型推理成本居高不下，传统的整层早退（Early Exit）机制存在一个根本矛盾：要么让所有 token 走完所有层（浪费算力），要么整层截断（伤害复杂 token 的生成质量）。近日arXiv发表的 TIDE（Token-Informed Depth Execution）论文，提出了更细粒度的解法——**逐 token 早退出**，即每个 token 在计算过程中独立判断是否可以在中间层退出，而不是等整层统一决定。\n\n核心机制上，TIDE 为每个 token 维护一个实时的「复杂度估计」，当该 token 的估计值低于阈值时，直接在当前层停止前向传播，而不需要等到最后一层。对于需要更多推理资源的 token，模型会继续深入。这种动态调整计算深度的机制，意味着模型可以智能地区分「简单 token」和「复杂 token」，对前者节省算力，对后者保证质量。\n\n与此前「跳过头部 token」的投机解码（Speculative Decoding）不同，TIDE 的创新在于将决策粒度从「段落级」细化到「token 级」，且不依赖额外的「draft 模型」。这让部署门槛更低，改动更小。\n\n论文在多个标准 benchmark 上的实验显示，TIDE 可以在保持模型精度的前提下，将整体计算量降低约 20%~30%。对于日均数十亿次推理调用的大模型服务而言，这个比例意味着可观的成本节约。\n\n值得关注的是，TIDE 研究团队 RightNow-AI 此前在注意力机制优化方面已有积累，这篇论文延续了其「实用主义」路线——不追求理论上的优雅突破，而是针对真实部署中的痛点给出工程上可落地的方案。如果后续在更多任务类型和更大模型上验证有效，这种逐 token 早退出的思路，可能成为下一代推理优化框架的标配。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.21365","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17],{"id":11,"name":12,"slug":12,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-05-23T10:01:00Z","2026-05-23T10:07:40.248535Z","2026-05-23T10:07:40.248548Z",true,"agent",12]