PoLar 把 LLM 层变成可调积木：动态跳层+复读，3B 模型数学推理涨 60+ 个百分点

2026 年 6 月 ICML 2026 接收的 PoLar 论文（arXiv 2606.06574）证明，LLM 固定深度前向只是冰山一角——把预训练层当作可跳过或复读的积木模块，再用轻量级 PoLar 预测网络为每个输入动态生成执行程序，Qwen2.5-3B 在 DART-Math DM-1 难度正确率从 25.4 飙到 87.4（+62.0），Qwen3-8B 全难度档 +36 到 +53 个百分点。 LLM 长期被认为只能按层均匀前向——Tianyi Lab 的 PoLar（ICML 2026 接收）打破这一定式：把预训练层当成可调积木，对每个输入动态跳过或复读部分层，无需重训即可显著抬升推理准确率。论文用 MCTS 在 DART-Math 五档难度上对 LLaMA-3.2-3B、Qwen1.5-MoE-A2.7B、Qwen2.5-3B、Qwen3-8B 做诊断性搜索，几乎对每个输入都能找到比默认前向更短、更准的层程序。联合跳过+复读严格优于单一操作：Qwen2.5-3B 在 DM-1 从 25.4 飙到 87.4（+62.0），DM-5 从 1.2 拉到 44.5；Qwen3-8B 全难度档 +36 到 +53 个百分点；4B 激活的 Qwen1.5-MoE-A2.7B 也能在 DM-1 拿到 +35.8——3B 比 8B 涨得更猛，反向印证固定前向对中小模型的浪费更严重。工程上 PoLar 训练一个轻量预测网络，把 MCTS 替成单次预测，对冻结层直接执行，部署成本几乎为零。这与 FastBERT 早退、Looped Transformer 同源，但首次把跳和复读放入统一动作空间联合优化。更值得玩味的是结构观察：搜出的程序几乎全由连续层段组成，提示预训练模型按块状算子而非逐层贡献。这呼应了潜推理假设——显式 CoT 只是潜推理在 token 空间的投影，PoLar 用层重排把它显式化。测试时还能采样候选程序做计算缩放，与 best-of-N、tree-of-thought 殊途同归，区别在扩展维度从token换成层。局限是 MCTS 搜索仍非轻量，收益集中在数学推理。但 PoLar 给 Looped Transformer、Test-Time Scaling 这条 2026 年正在冒头的研究线添了层重排新维度。