MIPU/MIPI:把 LLM RL 的「训练—推理失配」从工程噪音重写为优化目标

强化学习已成为大模型后训练标配(GRPO、DPO、PPO 等),但「训练跑着跑着就崩」始终是未解的工程难题。业界长期把根因归到 off-policyness 与 KL 漂移,然后在损失函数里加熵正则、加 clip、加 reference policy——可崩还是崩。 2026 年 6 月 28 日挂 arXiv 的论文《The Mirage of Optimizing Training Policies》(Liang 等人,含腾讯体系研究者 Bo Zheng)给了一个不一样的解读:**现有的所有优化工作,都被一个被忽略的「目标错位」污染了**。 LLM RL 在 rollout 阶段用推理引擎,在 policy update 阶段用训练引擎;两个引擎即便权重同步,对同一条轨迹也会给出不一致的 token 概率,这叫「训练—推理失配(TIM)」。先前工作把 TIM 当成 off-policyness 噪声去压制,本文则指出 TIM 是一种独立的结构性偏差:训练引擎里「看起来有效」的更新,部署到推理引擎上未必真的变好。 基于此,作者提出两个组件: - **Monotonic Inference Policy Improvement (MIPI)** —— 显式把「让部署用的推理策略单调变好」写进优化目标; - **Monotonic Inference Policy Update (MIPU)** —— 两步框架:先用采样器构造候选更新,再用 inference 侧的 gap proxy 选择性接受同步候选。 论文在两个模型规模、高失配条件下实测,MIPU 在平均推理性能与训练稳定性上都取得可观测提升,并减少训练崩溃频次。 **我的看法**:这件事的意义不在那点指标,而在把 RL 后训练工程化拉到「第一性原则」层面。所有做 GRPO / RLVR / Online DPO 的团队,建议重新审视「训练—推理一致性」——它可能比训出来的策略本身更影响最终交付质量。