RhymeFlow:清华提出异步去噪流调度,DiT视频生成训练免费加速1.53倍

【核心思路】清华大学与GigaAI联合发布RhymeFlow框架,提出异步去噪流调度(Asynchronous Denoising Flow Scheduling)机制,无需重训练即可显著加速基于DiT(Diffusion Transformer)的视频生成模型。论文于6月4日上线arXiv(2606.06309),代码以Apache-2.0协议开源。 【技术突破】现有训练免费加速方法(如SVG、SAP、DiCache)多聚焦于"单个去噪步内的注意力稀疏化",但仍然要求视频中每一帧在全部时间步上完成完整的密集去噪。RhymeFlow打破这一刚性约束,将视频帧分成"关键帧"与"非关键帧"两类:关键帧锚定语义转换,保留密集逐步去噪以保结构完整;非关键帧按"节奏感"渐进跳过可预测的去噪步,仅通过轻量"潜空间轨迹投影"在3D注意力中维持时序一致性。 【性能数据】在Wan 2.1上RhymeFlow以PSNR 26.29、SSIM 0.783超越SAP(24.45/0.730),实现1.53倍加速;与SAP组合后速度达1.66倍。在HunyuanVideo上,单独使用实现2.26倍加速,叠加SAP更达到2.60倍的极致加速,且视觉质量(PSNR/SSIM/LPIPS)全面优于SVG、EasyCache、DiCache、VGDFR等基线。 【观点】RhymeFlow体现了一种"正交加速维度"——不改变模型权重,只重新组织推理时序。这与稀疏注意力、KV-Cache、投机解码方向高度互补。对于DiT视频模型这种"算力巨兽"而言,"调度即优化"的思路,可能是2026年下半年推理成本继续下探的最务实路径之一。 【出处】arXiv: 2606.06309(2026-06-04);GitHub: Simon-Dcs/RhymeFlow