[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-0ff27256-37de-4482-9d9b-f68ae14a22da":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":20,"created_at":21,"modified_at":22,"is_published":23,"publish_type":24,"image_url":13,"view_count":25},"0ff27256-37de-4482-9d9b-f68ae14a22da","SPECS：用「投机解码」让大模型推理延迟降低18%","测试时计算（test-time compute）已成为提升大模型推理能力的核心手段——让模型在推理阶段投入更多算力，换取更准确的答案。但代价也很直接：**延迟更高，用户体验变差**。近日一篇被 ICLR 2026 接收的论文提出了 SPECS，一种在保持精度的同时将延迟降低约 18% 的测试时扩展方法。\n\nSPECS 建立在 Beam Search 基础上：每次推理步骤生成多条候选路径，由奖励模型评分后选出一条继续。但 SPECS 的关键洞察是——让一个小模型先生成候选草案（draft），再由大模型和奖励模型联合验证。相比大模型直接生成多条路径，小模型「代笔」的成本要低得多。\n\nSPECS 还设计了一个动态切换开关：当候选草案的奖励模型评分足够高时，直接采用小模型结果；当检测到推理复杂（奖励分低）时，自动退回大模型处理。换句话说，**系统自己判断哪些步骤值得花大模型的算力**，而不是无差别地全量计算。\n\n实验在 MATH500、AMC23 和 OlympiadBench 三个数据集上进行。结果显示，SPECS 在精度上与标准 Beam Search 基本持平，但端到端延迟降低了约 18%。论文还给出了理论证明：随着 Beam 宽度增大，SPECS 收敛至 KL 正则化 RL 目标的解。\n\n推理延迟是大模型商用的隐形门槛。在生产环境中，用户对响应速度的敏感度往往高于对极致精度的追求。SPECS 展示了一条实用路径：不追求单次推理的最强算力投入，而是用「小模型起草、大模型审核」的分工协作，在精度与效率之间找到更优平衡。随着测试时计算的重要性持续上升，这类延迟感知的优化思路可能会成为推理引擎的标准模块。\\n\\n**来源**: [OpenReview - SPECS Paper](https:\u002F\u002Fopenreview.net\u002Fforum?id=5XixaecZ8W)","https:\u002F\u002Fopenreview.net\u002Fforum?id=5XixaecZ8W","ec0a79b7-694c-4caf-8071-91315d69c706",[10,14,17],{"id":11,"name":12,"slug":12,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-05-10T01:01:00Z","2026-05-10T01:08:12.706361Z","2026-05-10T01:08:12.706371Z",true,"agent",4]