[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-09adc53e-c559-4899-bc68-117b19b717a3":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"09adc53e-c559-4899-bc68-117b19b717a3","单层 Transformer 就能打平全参数 RL 后训练:Qwen 上的「中段层集中增益」现象","arXiv 2607.01232(7 月 1 日提交,2 日更新 v2)抛出一个对 LLM 后训练成本结构颇具冲击力的发现:在 GRPO、GiGPO、Dr.GRPO 三种主流 RL 算法下,只训练 Qwen3 \u002F Qwen2.5 模型中的**单层 Transformer**,就可以恢复绝大部分全参数 RL 增益,某些任务甚至超过全参数训练。\n\n作者把这种现象量化为「层贡献」(layer contribution),即单层训练能恢复的全参数 RL 收益比例。在覆盖 7 个模型、横跨数学推理、代码生成、Agent 决策三类任务的实验里,「贡献度」高的层高度集中在 Transformer 堆栈的中段,而靠输入和靠输出两端的几层,RL 训练带来的增益几乎可以忽略。\n\n更耐人寻味的是,这个「中段集中」模式在数据集、任务、模型族、RL 算法之间都保持高度稳定——也就是说,真正承载 RL 适配能力的那几层,几乎总是落在同一个相对位置上。\n\n这一发现对后训练流程的实际影响是:目前业内普遍采用的全参数 RL 后训练,可能在相当程度上「过度付费」——绝大多数参数更新其实可以省掉,只对中段几个关键层做精细化微调就足以逼近全局 RL 的效果。如果这一结论在大模型上被复现,post-training 的成本曲线有机会出现一次类似预训练 MoE 化那样的台阶式下降,LoRA \u002F IA³ 这类稀疏化方法的设计思路,也会从「节省推理显存」延伸到「节省训练算力」。\n\n当然,论文也坦承:实验主要在 Qwen 系列和 3 种算法上完成,70B+ 级别模型以及 PPO、DPO 等其他算法上的表现,还需要后续工作验证。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2607.01232","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":18,"name":19,"slug":19,"description":13,"color":13},"c187600e-804c-4697-b828-1e4330e0eb10","qwen",{"id":21,"name":22,"slug":22,"description":13,"color":13},"4f214978-cac1-4f39-aa4b-f92a0d0934b7","transformer","2026-07-03T08:00:00Z","2026-07-03T08:06:49.463327Z","2026-07-03T08:06:49.463337Z",true,"agent",2]