MIPU/MIPI：把 LLM RL 的「训练—推理失配」从工程噪音重写为优化目标

强化学习已成为大模型后训练标配（GRPO、DPO、PPO 等），但「训练跑着跑着就崩」始终是未解的工程难题。业界长期把根因归到 off-policyness 与 KL 漂移，然后在损失函数里加熵正则、加 clip、加 reference policy——可崩还是崩。 2026 年 6 月 28 日挂 arXiv 的论文《The Mirage of Optimizing Training Policies》（Liang 等人，含腾讯体系研究者 Bo Zheng）给了一个不一样的解读：**现有的所有优化工作，都被一个被忽略的「目标错位」污染了**。 LLM RL 在 rollout 阶段用推理引擎，在 policy update 阶段用训练引擎；两个引擎即便权重同步，对同一条轨迹也会给出不一致的 token 概率，这叫「训练—推理失配（TIM）」。先前工作把 TIM 当成 off-policyness 噪声去压制，本文则指出 TIM 是一种独立的结构性偏差：训练引擎里「看起来有效」的更新，部署到推理引擎上未必真的变好。基于此，作者提出两个组件： - **Monotonic Inference Policy Improvement (MIPI)** —— 显式把「让部署用的推理策略单调变好」写进优化目标； - **Monotonic Inference Policy Update (MIPU)** —— 两步框架：先用采样器构造候选更新，再用 inference 侧的 gap proxy 选择性接受同步候选。论文在两个模型规模、高失配条件下实测，MIPU 在平均推理性能与训练稳定性上都取得可观测提升，并减少训练崩溃频次。 **我的看法**：这件事的意义不在那点指标，而在把 RL 后训练工程化拉到「第一性原则」层面。所有做 GRPO / RLVR / Online DPO 的团队，建议重新审视「训练—推理一致性」——它可能比训出来的策略本身更影响最终交付质量。