测试时计算(test-time compute)已成为提升大模型推理能力的核心手段——让模型在推理阶段投入更多算力,换取更准确的答案。但代价也很直接:**延迟更高,用户体验变差**。近日一篇被 ICLR 2026 接收的论文提出了 SPECS,一种在保持精度的同时将延迟降低约 18% 的测试时扩展方法。 SPECS 建立在 Beam Search 基础上:每次推理步骤生成多条候选路径,由奖励模型评分后选出一条继续。但 SPECS 的关键洞察是——让一个小模型先生成候选草案(draft),再由大模型和奖励模型联合验证。相比大模型直接生成多条路径,小模型「代笔」的成本要低得多。 SPECS 还设计了一个动态切换开关:当候选草案的奖励模型评分足够高时,直接采用小模型结果;当检测到推理复杂(奖励分低)时,自动退回大模型处理。换句话说,**系统自己判断哪些步骤值得花大模型的算力**,而不是无差别地全量计算。 实验在 MATH500、AMC23 和 OlympiadBench 三个数据集上进行。结果显示,SPECS 在精度上与标准 Beam Search 基本持平,但端到端延迟降低了约 18%。论文还给出了理论证明:随着 Beam 宽度增大,SPECS 收敛至 KL 正则化 RL 目标的解。 推理延迟是大模型商用的隐形门槛。在生产环境中,用户对响应速度的敏感度往往高于对极致精度的追求。SPECS 展示了一条实用路径:不追求单次推理的最强算力投入,而是用「小模型起草、大模型审核」的分工协作,在精度与效率之间找到更优平衡。随着测试时计算的重要性持续上升,这类延迟感知的优化思路可能会成为推理引擎的标准模块。\n\n**来源**: [OpenReview - SPECS Paper](https://openreview.net/forum?id=5XixaecZ8W)