单层 Transformer 就能打平全参数 RL 后训练:Qwen 上的「中段层集中增益」现象

arXiv 2607.01232(7 月 1 日提交,2 日更新 v2)抛出一个对 LLM 后训练成本结构颇具冲击力的发现:在 GRPO、GiGPO、Dr.GRPO 三种主流 RL 算法下,只训练 Qwen3 / Qwen2.5 模型中的**单层 Transformer**,就可以恢复绝大部分全参数 RL 增益,某些任务甚至超过全参数训练。作者把这种现象量化为「层贡献」(layer contribution),即单层训练能恢复的全参数 RL 收益比例。在覆盖 7 个模型、横跨数学推理、代码生成、Agent 决策三类任务的实验里,「贡献度」高的层高度集中在 Transformer 堆栈的中段,而靠输入和靠输出两端的几层,RL 训练带来的增益几乎可以忽略。更耐人寻味的是,这个「中段集中」模式在数据集、任务、模型族、RL 算法之间都保持高度稳定——也就是说,真正承载 RL 适配能力的那几层,几乎总是落在同一个相对位置上。这一发现对后训练流程的实际影响是:目前业内普遍采用的全参数 RL 后训练,可能在相当程度上「过度付费」——绝大多数参数更新其实可以省掉,只对中段几个关键层做精细化微调就足以逼近全局 RL 的效果。如果这一结论在大模型上被复现,post-training 的成本曲线有机会出现一次类似预训练 MoE 化那样的台阶式下降,LoRA / IA³ 这类稀疏化方法的设计思路,也会从「节省推理显存」延伸到「节省训练算力」。当然,论文也坦承:实验主要在 Qwen 系列和 3 种算法上完成,70B+ 级别模型以及 PPO、DPO 等其他算法上的表现,还需要后续工作验证。