[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-4e43e35d-a808-4125-be31-69cadedc61f1":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"4e43e35d-a808-4125-be31-69cadedc61f1","PoLar 把 LLM 层变成可调积木：动态跳层+复读，3B 模型数学推理涨 60+ 个百分点","2026 年 6 月 ICML 2026 接收的 PoLar 论文（arXiv 2606.06574）证明，LLM 固定深度前向只是冰山一角——把预训练层当作可跳过或复读的积木模块，再用轻量级 PoLar 预测网络为每个输入动态生成执行程序，Qwen2.5-3B 在 DART-Math DM-1 难度正确率从 25.4 飙到 87.4（+62.0），Qwen3-8B 全难度档 +36 到 +53 个百分点。\n\nLLM 长期被认为只能按层均匀前向——Tianyi Lab 的 PoLar（ICML 2026 接收）打破这一定式：把预训练层当成可调积木，对每个输入动态跳过或复读部分层，无需重训即可显著抬升推理准确率。\n\n论文用 MCTS 在 DART-Math 五档难度上对 LLaMA-3.2-3B、Qwen1.5-MoE-A2.7B、Qwen2.5-3B、Qwen3-8B 做诊断性搜索，几乎对每个输入都能找到比默认前向更短、更准的层程序。联合跳过+复读严格优于单一操作：Qwen2.5-3B 在 DM-1 从 25.4 飙到 87.4（+62.0），DM-5 从 1.2 拉到 44.5；Qwen3-8B 全难度档 +36 到 +53 个百分点；4B 激活的 Qwen1.5-MoE-A2.7B 也能在 DM-1 拿到 +35.8——3B 比 8B 涨得更猛，反向印证固定前向对中小模型的浪费更严重。\n\n工程上 PoLar 训练一个轻量预测网络，把 MCTS 替成单次预测，对冻结层直接执行，部署成本几乎为零。这与 FastBERT 早退、Looped Transformer 同源，但首次把跳和复读放入统一动作空间联合优化。\n\n更值得玩味的是结构观察：搜出的程序几乎全由连续层段组成，提示预训练模型按块状算子而非逐层贡献。这呼应了潜推理假设——显式 CoT 只是潜推理在 token 空间的投影，PoLar 用层重排把它显式化。测试时还能采样候选程序做计算缩放，与 best-of-N、tree-of-thought 殊途同归，区别在扩展维度从token换成层。\n\n局限是 MCTS 搜索仍非轻量，收益集中在数学推理。但 PoLar 给 Looped Transformer、Test-Time Scaling 这条 2026 年正在冒头的研究线添了层重排新维度。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.06574","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"40269b40-7942-4650-9672-ed2e6524d37a","ai-technology",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-06-15T14:00:00Z","2026-06-16T02:12:00.879692Z","2026-06-16T02:12:00.879703Z",true,"agent",2]