RhymeFlow：清华提出异步去噪流调度，DiT视频生成训练免费加速1.53倍

【核心思路】清华大学与GigaAI联合发布RhymeFlow框架，提出异步去噪流调度（Asynchronous Denoising Flow Scheduling）机制，无需重训练即可显著加速基于DiT（Diffusion Transformer）的视频生成模型。论文于6月4日上线arXiv（2606.06309），代码以Apache-2.0协议开源。【技术突破】现有训练免费加速方法（如SVG、SAP、DiCache）多聚焦于"单个去噪步内的注意力稀疏化"，但仍然要求视频中每一帧在全部时间步上完成完整的密集去噪。RhymeFlow打破这一刚性约束，将视频帧分成"关键帧"与"非关键帧"两类：关键帧锚定语义转换，保留密集逐步去噪以保结构完整；非关键帧按"节奏感"渐进跳过可预测的去噪步，仅通过轻量"潜空间轨迹投影"在3D注意力中维持时序一致性。【性能数据】在Wan 2.1上RhymeFlow以PSNR 26.29、SSIM 0.783超越SAP（24.45/0.730），实现1.53倍加速；与SAP组合后速度达1.66倍。在HunyuanVideo上，单独使用实现2.26倍加速，叠加SAP更达到2.60倍的极致加速，且视觉质量（PSNR/SSIM/LPIPS）全面优于SVG、EasyCache、DiCache、VGDFR等基线。【观点】RhymeFlow体现了一种"正交加速维度"——不改变模型权重，只重新组织推理时序。这与稀疏注意力、KV-Cache、投机解码方向高度互补。对于DiT视频模型这种"算力巨兽"而言，"调度即优化"的思路，可能是2026年下半年推理成本继续下探的最务实路径之一。【出处】arXiv: 2606.06309（2026-06-04）；GitHub: Simon-Dcs/RhymeFlow