Token-Superposition Training：Nous Research 用「平均嵌入」两阶段预训练把 10B MoE 训练时长砍掉 2.5 倍

Nous Research 发布的 Token-Superposition Training（TST）是一种零侵入的预训练加速方法：在训练的前 r 步（r∈[0.2,0.4]），把 s 个连续 token 的 embedding 取平均作为一个 latent s-token，模型在 L/s 序列长度上预测下一个 bag 的 s 个目标 token，用多热交叉熵 MCE loss；之后切回标准 next-token 预测。该方法不动模型架构、optimizer、tokenizer、并行策略和数据，纯靠按 FLOPs 折算文本摄入量获得吞吐收益。3B dense 同 FLOPs 下 loss 由 2.808 降到 2.676，10B-A1B MoE 同 loss 下训练时长由 12,311 降到 4,768 B200-小时（约 2.5x 加速），HellaSwag、ARC-Easy/Challenge、MMLU 全部反超。消融显示输入侧和输出侧是两种正交机制；论文也给出边界条件：仅适合算力受限、数据充足的预训练。