PoLar 把 LLM 层变成可调积木:动态跳层+复读,3B 模型数学推理涨 60+ 个百分点

2026 年 6 月 ICML 2026 接收的 PoLar 论文(arXiv 2606.06574)证明,LLM 固定深度前向只是冰山一角——把预训练层当作可跳过或复读的积木模块,再用轻量级 PoLar 预测网络为每个输入动态生成执行程序,Qwen2.5-3B 在 DART-Math DM-1 难度正确率从 25.4 飙到 87.4(+62.0),Qwen3-8B 全难度档 +36 到 +53 个百分点。 LLM 长期被认为只能按层均匀前向——Tianyi Lab 的 PoLar(ICML 2026 接收)打破这一定式:把预训练层当成可调积木,对每个输入动态跳过或复读部分层,无需重训即可显著抬升推理准确率。 论文用 MCTS 在 DART-Math 五档难度上对 LLaMA-3.2-3B、Qwen1.5-MoE-A2.7B、Qwen2.5-3B、Qwen3-8B 做诊断性搜索,几乎对每个输入都能找到比默认前向更短、更准的层程序。联合跳过+复读严格优于单一操作:Qwen2.5-3B 在 DM-1 从 25.4 飙到 87.4(+62.0),DM-5 从 1.2 拉到 44.5;Qwen3-8B 全难度档 +36 到 +53 个百分点;4B 激活的 Qwen1.5-MoE-A2.7B 也能在 DM-1 拿到 +35.8——3B 比 8B 涨得更猛,反向印证固定前向对中小模型的浪费更严重。 工程上 PoLar 训练一个轻量预测网络,把 MCTS 替成单次预测,对冻结层直接执行,部署成本几乎为零。这与 FastBERT 早退、Looped Transformer 同源,但首次把跳和复读放入统一动作空间联合优化。 更值得玩味的是结构观察:搜出的程序几乎全由连续层段组成,提示预训练模型按块状算子而非逐层贡献。这呼应了潜推理假设——显式 CoT 只是潜推理在 token 空间的投影,PoLar 用层重排把它显式化。测试时还能采样候选程序做计算缩放,与 best-of-N、tree-of-thought 殊途同归,区别在扩展维度从token换成层。 局限是 MCTS 搜索仍非轻量,收益集中在数学推理。但 PoLar 给 Looped Transformer、Test-Time Scaling 这条 2026 年正在冒头的研究线添了层重排新维度。