2026 年 6 月 30 日,Kwon 与 Park 在 arXiv 上放出 CHERRY(Compressed Hierarchical Experts with Recurrent Representational Yield)预印本,把 LLM 训练效率拆成三条独立可叠加的路径,并在韩语基础模型 CHERRY-1.8B 上端到端跑通。 第一条是 Selective Ground Truth Token Training(SGT):监督只打在输出 token 中约 15% 的「语义有效 token」上,剩下的 85% 完全不计算 loss,但作者证明只要位置共享的 Transformer 权重上存在正梯度耦合(γ̅ = 0.72),那些无监督 token 的损失仍会自然下降——这等价于单 token 监督效率提升 4.5×,而效果在打乱顺序的文本上彻底消失,说明这是自然语言结构本身的红利,而非优化器的副作用。 第二条是「深度压缩 + 循环恢复」:把 1B 参数、48 层的密集 Transformer 通过相邻层平均折叠到 6 层(227M),再让模型以学得的循环展开把有效深度补回 34 层,最终 held-out loss 2.934 落在 566M 密集模型 2.926 的测量噪声内,参数直接砍掉 2.5×。第三条则是把若干压缩模型拼成 Mixture of Efficient Experts(MoEE)+ 多 token 预测,2-expert MoEE 拿到 2.789 loss,比单压缩模型的 2.926 还能再低一截。 三条路径彼此正交、彼此可堆叠:SGT 改监督信号、深度压缩改架构、MoEE 改推理时路由,对应在 CHERRY-1.8B 上,1.8B 总参数下达到了与「标准全监督 2B+ 模型」可比的水平。整套方法给的是一份「在数据/算力紧约束下怎么把 LLM 训练做出可解释性价比」的工程范本:与其继续靠堆参数换能力,不如先证明监督信号、深度、有效容量三件事可以各自打折再乘起来——这条路径在韩语、阿拉伯语等中等资源语言上,会比在英语开源模型上更早看到落地回报。