腾讯混元 UniRL 框架开源：把「统一多模态」塞进同一个 RL 训练循环，DRPO / Flow-DPPO / CPPO 三连发

腾讯混元团队在 GitHub 上线 UniRL 框架（Tencent-Hunyuan/UniRL，6 月 14 日更新），把「统一多模态模型强化学习后训练」从论文概念落成可复用的开源系统。核心抽象是「一个 RL 训练循环 + 多模型族入口」：train_ar、train_diffusion、train_pe、train_unified_model 共用同一套 Hydra 配置（模型、算法、rollout、reward、placement、sync），由 ARTrainer / DiffusionTrainer / PETrainer / UnifiedModelTrainer 协调 rollout 引擎、奖励服务以及 Ray DevicePool + FSDP + Transfer Queue 的分布式 runtime。配套三篇 arXiv 论文同步上线。 DRPO（2606.09821，「Rethinking the Divergence Regularization in LLM RL」）直指 PPO/GRPO 的 ratio-clipping 痛点：在长尾词表上 importance ratio 是 distributional shift 的糟糕代理；DPPO 用散度硬掩码修了一版，但 token 一旦跨过 trust-region 边界梯度就被丢弃。DRPO 把硬掩码换成 advantage-weighted 二次正则器，给越界 token 保留有界、连续的梯度权重——既能衰减又能提供边界外的纠正信号。 Flow-DPPO（2606.11025）专攻流匹配 / 扩散模型的 RL 训练。Flow-GRPO、CPS 等把去噪视作 MDP 后套 PPO 风格 ratio clip，但 ratio clip 在 flow 轨迹上结构性失配：同一 ratio 在不同区域既会过约束又会欠约束。Flow-DPPO 抓住「flow 模型 per-step policy 是高斯分布」这一事实，得以精确且廉价地算 KL 散度，再用 asymmetric divergence mask 仅在「同时偏离可信区并突破散度阈值」时阻断梯度——论文显示其在奖励、KL 效率、抗灾难性遗忘、多 epoch 稳定性上同时占优。 CPPO（2606.10968）把 trust-region 从「位置无关」推向「位置感知 + 累计前缀预算」。自回归生成有天然不对称性：早期 token 偏差会被序列级 drift 放大。CPPO 引入位置加权阈值 + 累计预算两套耦合机制，把 token-level 信任区对齐到有限视野下的 policy-improvement 界。工程侧，UniRL 同时把 GRPO、DiffusionNFT、DanceGRPO、MixGRPO 等参考实现接进 algorithms 目录，对中文社区而言也意味着多模态 RL 后训练不再只能基于 verl、OpenRLHF 等国外框架做选择。