Taylor-Calibrate 把 Transformer 蒸馏成 GDN 的初始化做成系统级工程

当下把 Transformer 转成 Gated DeltaNet 这类混合线性注意力架构,最大的隐性成本不在于重新训练,而在于初始化:教师 attention 的投影矩阵被原样塞给学生,但 GDN 多了 recurrent decay、write gate、output gate 几个本征动态量,naive 拷贝只会把学生推进一个「坏的动力学区间」——前几个 billion token 全在 repair,真正的蒸馏信号几乎学不到。Together AI 在 arXiv 公开的 Taylor-Calibrate(2606.16429)尝试把这件事做成系统级工程。其核心思路是把教师 softmax attention 在小邻域内的泰勒展开当作统计探针,一次性估出 GDN 学生的 value projection 尺度、memory timescale、write gate、output gate 的初值,再叠一次短 per-layer alignment step 把每层输出对齐到教师。论文覆盖了 4 个教师配置与 3 种保留层策略的组合,结果相当激进:零样本评测下学生质量相对 naive 转换最高提升 88 倍;达到相同恢复目标只需 4.9 至 9.2 倍的训练 token。这意味着把一段已有的 Transformer「换骨」到 GDN 混合架构时,前期试错的算力成本被压回几次 alignment 的量级。放在 2026 年的大背景看:GDN、Mamba-3、Nemotron 3 hybrid 这条混合线性注意力路线已成为长上下文推理的事实标准,但「从 Transformer 蒸馏」一直是企业自托管最难算账的一步。Taylor-Calibrate 的价值就在于它把这一步从「重新预训练」逼近到「短训蒸馏」——对 1M 上下文 KV-cache 降本尤其直接。