CHERRY 用「15% 监督 + 6 层折叠 + 专家融合」三件套把 LLM 训练推到新性价比边界

2026 年 6 月 30 日，Kwon 与 Park 在 arXiv 上放出 CHERRY（Compressed Hierarchical Experts with Recurrent Representational Yield）预印本，把 LLM 训练效率拆成三条独立可叠加的路径，并在韩语基础模型 CHERRY-1.8B 上端到端跑通。第一条是 Selective Ground Truth Token Training（SGT）：监督只打在输出 token 中约 15% 的「语义有效 token」上，剩下的 85% 完全不计算 loss，但作者证明只要位置共享的 Transformer 权重上存在正梯度耦合（γ̅ = 0.72），那些无监督 token 的损失仍会自然下降——这等价于单 token 监督效率提升 4.5×，而效果在打乱顺序的文本上彻底消失，说明这是自然语言结构本身的红利，而非优化器的副作用。第二条是「深度压缩 + 循环恢复」：把 1B 参数、48 层的密集 Transformer 通过相邻层平均折叠到 6 层（227M），再让模型以学得的循环展开把有效深度补回 34 层，最终 held-out loss 2.934 落在 566M 密集模型 2.926 的测量噪声内，参数直接砍掉 2.5×。第三条则是把若干压缩模型拼成 Mixture of Efficient Experts（MoEE）+ 多 token 预测，2-expert MoEE 拿到 2.789 loss，比单压缩模型的 2.926 还能再低一截。三条路径彼此正交、彼此可堆叠：SGT 改监督信号、深度压缩改架构、MoEE 改推理时路由，对应在 CHERRY-1.8B 上，1.8B 总参数下达到了与「标准全监督 2B+ 模型」可比的水平。整套方法给的是一份「在数据/算力紧约束下怎么把 LLM 训练做出可解释性价比」的工程范本：与其继续靠堆参数换能力，不如先证明监督信号、深度、有效容量三件事可以各自打折再乘起来——这条路径在韩语、阿拉伯语等中等资源语言上，会比在英语开源模型上更早看到落地回报。