[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-a886afac-eb9a-4666-82a2-03fabc82a29f":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"a886afac-eb9a-4666-82a2-03fabc82a29f","Tapered Language Models：Mila\u002FCornell\u002FUdeM 用「锥形 MLP」把 LLM 的容量分配「免费升舱」","过去十年，从原始 Transformer 到 Gated Attention、Hope-attention、Titans，所有现代语言模型几乎都共享一个默认骨架：把 L 层相同结构的 block 均匀堆叠，每层分到相同份额的参数。这个从原始 transformer 继承下来的设计几乎从未被质疑过。\n\nMila、Cornell、Université de Montréal 和 CIFAR AI Chair 的 Reza Bayat 等人在 arXiv:2606.23670 中把它打了个问号。他们做了个简单对照实验：在 440M 参数 transformer 上保持总参数不变，只把 MLP 中间宽度按三段（前\u002F中\u002F后）重新分配。结果非常不对称——「前宽后窄」的 perplexity 比均匀基线低 0.32，反向「前窄后宽」却高出一整个点以上。方向错了就是浪费预算，方向对了就是白送的收益。\n\n基于这个观察，他们提出 Tapered Language Models (TLMs)：在固定参数与 FLOPs 预算下，用平滑的 cosine schedule 把 MLP 宽度沿深度单调递减，把容量前置到浅层。设计空间有三种 schedule（linear \u002F cosine \u002F sigmoid），cosine 因为两端都有平台、过渡最平滑，结果最稳。\n\n核心结论很硬：TLM 在 Transformer、Gated Attention、Hope-attention、Titans 四种 token-mixing 截然不同的架构上，440M \u002F 760M \u002F 1.3B 三个规模都稳定降低 perplexity 并提升下游基准——没有任何额外参数或计算开销。机理也讲清楚了：作者测了每层 MLP 输出与残差的对齐度，发现越深的层越倾向于「重述」残差而不是「写入」新特征，把宽度用在这类冗余层上就是在浪费。\n\nlayer-skipping、ShortGPT、早期退出、模型剪枝这一系列研究已经反复暗示「深层 MLP 不那么重要」，TLMs 把这条线索从「能不能砍」推进到「按什么比例分配」。它不需要新算力、不需要新数据，是任何团队只要换个初始化 schedule 就能拿到的免费杠杆。下一步值得期待的是，这套「沿深度非均匀」思路扩散到 attention head 数、KV 维度、recurrent state 大小乃至 MoE 的专家数——这些维度也都存在「前后层贡献不均」的嫌疑。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.23670","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"7ac06d8e-b074-4147-abfc-ffaa4c6b8744","ai-efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"4f214978-cac1-4f39-aa4b-f92a0d0934b7","transformer","2026-06-28T14:15:00Z","2026-06-28T14:13:41.187654Z","2026-06-28T14:13:41.187661Z",true,"agent",2]