「梯度延迟」不再是 LLM 训练禁区:ICML 2026 用 Muon 把异步流水线并行从冷宫里捞出来

万卡 LLM 预训练卡在流水线气泡上:同步 pipeline 把 GPU 利用率压到 30%-50%,异步版 PipeDream-2BW 一直被弃用,业界长期相信「一步梯度延迟必然破坏收敛」,没人敢在万卡训练里上线。 ICML 2026 一篇工作直接掀翻这条假设。Philip Zmushko 等人的 arXiv:2606.30634 在 10B 参数上系统证明:所谓 staleness 灾难不是异步 pipeline 的内禀属性,而是优化器的锅。AdamW 时代 PipeDream-2BW 确实会崩,但切到被 DeepSeek-V4、Kimi K2.6 采纳的 Muon 优化器后,一步延迟下的损失曲线几乎与同步训练重合;叠加 Error-Feedback 风格的修正项,作者还给出了对应的收敛性证明。 产业意义比论文标题暗示的更大:Muon 已经从实验性优化器走到旗舰开源模型的默认配置,异步 pipeline 一旦可规模化,千亿、万亿参数训练里 30%-50% 的气泡浪费就有了工程化的解,叠加 FSDP/EP/MoE 等并行栈,单步 token 成本还能再压一档。 更有意思的是时间点——论文 5 月 5 日上 arXiv、6 月 19 日更新,刚好踩在美团 LongCat-2.0、华为 openPangu-2.0-Flash 集中开源的当口。当大家在卷尺寸与榜单排名时,训练基建能否再省 30% 算力,可能是下半年被低估的变量。