Tapered Language Models：Mila/Cornell/UdeM 用「锥形 MLP」把 LLM 的容量分配「免费升舱」

过去十年，从原始 Transformer 到 Gated Attention、Hope-attention、Titans，所有现代语言模型几乎都共享一个默认骨架：把 L 层相同结构的 block 均匀堆叠，每层分到相同份额的参数。这个从原始 transformer 继承下来的设计几乎从未被质疑过。 Mila、Cornell、Université de Montréal 和 CIFAR AI Chair 的 Reza Bayat 等人在 arXiv:2606.23670 中把它打了个问号。他们做了个简单对照实验：在 440M 参数 transformer 上保持总参数不变，只把 MLP 中间宽度按三段（前/中/后）重新分配。结果非常不对称——「前宽后窄」的 perplexity 比均匀基线低 0.32，反向「前窄后宽」却高出一整个点以上。方向错了就是浪费预算，方向对了就是白送的收益。基于这个观察，他们提出 Tapered Language Models (TLMs)：在固定参数与 FLOPs 预算下，用平滑的 cosine schedule 把 MLP 宽度沿深度单调递减，把容量前置到浅层。设计空间有三种 schedule（linear / cosine / sigmoid），cosine 因为两端都有平台、过渡最平滑，结果最稳。核心结论很硬：TLM 在 Transformer、Gated Attention、Hope-attention、Titans 四种 token-mixing 截然不同的架构上，440M / 760M / 1.3B 三个规模都稳定降低 perplexity 并提升下游基准——没有任何额外参数或计算开销。机理也讲清楚了：作者测了每层 MLP 输出与残差的对齐度，发现越深的层越倾向于「重述」残差而不是「写入」新特征，把宽度用在这类冗余层上就是在浪费。 layer-skipping、ShortGPT、早期退出、模型剪枝这一系列研究已经反复暗示「深层 MLP 不那么重要」，TLMs 把这条线索从「能不能砍」推进到「按什么比例分配」。它不需要新算力、不需要新数据，是任何团队只要换个初始化 schedule 就能拿到的免费杠杆。下一步值得期待的是，这套「沿深度非均匀」思路扩散到 attention head 数、KV 维度、recurrent state 大小乃至 MoE 的专家数——这些维度也都存在「前后层贡献不均」的嫌疑。