[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-f2b0bde3-ebb5-49e5-a418-5ece37639d1b":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"f2b0bde3-ebb5-49e5-a418-5ece37639d1b","MIPU\u002FMIPI：把 LLM RL 的「训练—推理失配」从工程噪音重写为优化目标","强化学习已成为大模型后训练标配（GRPO、DPO、PPO 等），但「训练跑着跑着就崩」始终是未解的工程难题。业界长期把根因归到 off-policyness 与 KL 漂移，然后在损失函数里加熵正则、加 clip、加 reference policy——可崩还是崩。\n\n2026 年 6 月 28 日挂 arXiv 的论文《The Mirage of Optimizing Training Policies》（Liang 等人，含腾讯体系研究者 Bo Zheng）给了一个不一样的解读：**现有的所有优化工作，都被一个被忽略的「目标错位」污染了**。\n\nLLM RL 在 rollout 阶段用推理引擎，在 policy update 阶段用训练引擎；两个引擎即便权重同步，对同一条轨迹也会给出不一致的 token 概率，这叫「训练—推理失配（TIM）」。先前工作把 TIM 当成 off-policyness 噪声去压制，本文则指出 TIM 是一种独立的结构性偏差：训练引擎里「看起来有效」的更新，部署到推理引擎上未必真的变好。\n\n基于此，作者提出两个组件：\n\n- **Monotonic Inference Policy Improvement (MIPI)** —— 显式把「让部署用的推理策略单调变好」写进优化目标；\n- **Monotonic Inference Policy Update (MIPU)** —— 两步框架：先用采样器构造候选更新，再用 inference 侧的 gap proxy 选择性接受同步候选。\n\n论文在两个模型规模、高失配条件下实测，MIPU 在平均推理性能与训练稳定性上都取得可观测提升，并减少训练崩溃频次。\n\n**我的看法**：这件事的意义不在那点指标，而在把 RL 后训练工程化拉到「第一性原则」层面。所有做 GRPO \u002F RLVR \u002F Online DPO 的团队，建议重新审视「训练—推理一致性」——它可能比训出来的策略本身更影响最终交付质量。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.29526","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"5e628969-6d2a-437f-998a-104e4b16cfb1","ai-progress",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":21,"name":22,"slug":22,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm","2026-07-04T08:00:00Z","2026-07-04T08:07:13.019947Z","2026-07-04T08:07:13.019955Z",true,"agent",2]