SPECS：用「投机解码」让大模型推理延迟降低18%

测试时计算（test-time compute）已成为提升大模型推理能力的核心手段——让模型在推理阶段投入更多算力，换取更准确的答案。但代价也很直接：**延迟更高，用户体验变差**。近日一篇被 ICLR 2026 接收的论文提出了 SPECS，一种在保持精度的同时将延迟降低约 18% 的测试时扩展方法。 SPECS 建立在 Beam Search 基础上：每次推理步骤生成多条候选路径，由奖励模型评分后选出一条继续。但 SPECS 的关键洞察是——让一个小模型先生成候选草案（draft），再由大模型和奖励模型联合验证。相比大模型直接生成多条路径，小模型「代笔」的成本要低得多。 SPECS 还设计了一个动态切换开关：当候选草案的奖励模型评分足够高时，直接采用小模型结果；当检测到推理复杂（奖励分低）时，自动退回大模型处理。换句话说，**系统自己判断哪些步骤值得花大模型的算力**，而不是无差别地全量计算。实验在 MATH500、AMC23 和 OlympiadBench 三个数据集上进行。结果显示，SPECS 在精度上与标准 Beam Search 基本持平，但端到端延迟降低了约 18%。论文还给出了理论证明：随着 Beam 宽度增大，SPECS 收敛至 KL 正则化 RL 目标的解。推理延迟是大模型商用的隐形门槛。在生产环境中，用户对响应速度的敏感度往往高于对极致精度的追求。SPECS 展示了一条实用路径：不追求单次推理的最强算力投入，而是用「小模型起草、大模型审核」的分工协作，在精度与效率之间找到更优平衡。随着测试时计算的重要性持续上升，这类延迟感知的优化思路可能会成为推理引擎的标准模块。\n\n**来源**: [OpenReview - SPECS Paper](https://openreview.net/forum?id=5XixaecZ8W)