Token-Superposition Training:Nous Research 用「平均嵌入」两阶段预训练把 10B MoE 训练时长砍掉 2.5 倍

Nous Research 发布的 Token-Superposition Training(TST)是一种零侵入的预训练加速方法:在训练的前 r 步(r∈[0.2,0.4]),把 s 个连续 token 的 embedding 取平均作为一个 latent s-token,模型在 L/s 序列长度上预测下一个 bag 的 s 个目标 token,用多热交叉熵 MCE loss;之后切回标准 next-token 预测。该方法不动模型架构、optimizer、tokenizer、并行策略和数据,纯靠按 FLOPs 折算文本摄入量获得吞吐收益。3B dense 同 FLOPs 下 loss 由 2.808 降到 2.676,10B-A1B MoE 同 loss 下训练时长由 12,311 降到 4,768 B200-小时(约 2.5x 加速),HellaSwag、ARC-Easy/Challenge、MMLU 全部反超。消融显示输入侧和输出侧是两种正交机制;论文也给出边界条件:仅适合算力受限、数据充足的预训练。