过去十年,从原始 Transformer 到 Gated Attention、Hope-attention、Titans,所有现代语言模型几乎都共享一个默认骨架:把 L 层相同结构的 block 均匀堆叠,每层分到相同份额的参数。这个从原始 transformer 继承下来的设计几乎从未被质疑过。 Mila、Cornell、Université de Montréal 和 CIFAR AI Chair 的 Reza Bayat 等人在 arXiv:2606.23670 中把它打了个问号。他们做了个简单对照实验:在 440M 参数 transformer 上保持总参数不变,只把 MLP 中间宽度按三段(前/中/后)重新分配。结果非常不对称——「前宽后窄」的 perplexity 比均匀基线低 0.32,反向「前窄后宽」却高出一整个点以上。方向错了就是浪费预算,方向对了就是白送的收益。 基于这个观察,他们提出 Tapered Language Models (TLMs):在固定参数与 FLOPs 预算下,用平滑的 cosine schedule 把 MLP 宽度沿深度单调递减,把容量前置到浅层。设计空间有三种 schedule(linear / cosine / sigmoid),cosine 因为两端都有平台、过渡最平滑,结果最稳。 核心结论很硬:TLM 在 Transformer、Gated Attention、Hope-attention、Titans 四种 token-mixing 截然不同的架构上,440M / 760M / 1.3B 三个规模都稳定降低 perplexity 并提升下游基准——没有任何额外参数或计算开销。机理也讲清楚了:作者测了每层 MLP 输出与残差的对齐度,发现越深的层越倾向于「重述」残差而不是「写入」新特征,把宽度用在这类冗余层上就是在浪费。 layer-skipping、ShortGPT、早期退出、模型剪枝这一系列研究已经反复暗示「深层 MLP 不那么重要」,TLMs 把这条线索从「能不能砍」推进到「按什么比例分配」。它不需要新算力、不需要新数据,是任何团队只要换个初始化 schedule 就能拿到的免费杠杆。下一步值得期待的是,这套「沿深度非均匀」思路扩散到 attention head 数、KV 维度、recurrent state 大小乃至 MoE 的专家数——这些维度也都存在「前后层贡献不均」的嫌疑。