LiveEdit 把扩散视频编辑推到 12.66 FPS：清华让 AR 实时编辑走出 PPT

清华团队(王新宇、赵崇波、占方能、马跃)的 LiveEdit 刚被 ECCV 2026 接收,把扩散模型做流式视频编辑从能跑推到能上产线。传统扩散视频编辑要做到保留背景 + 长时序稳定,只能用双向模型跑全序列,延迟和算力都是天花板,几乎只能录完再修。LiveEdit 的破局是两步:第一,三阶段蒸馏——把一个能力强的双向基础模型,逐步压缩到一个单向流式编辑器,只看到过去帧就能算当前帧,长时序靠单向因果卷积稳住背景;第二,AR-Oriented Mask Cache——视频编辑天然有只改某个 mask 区域的局部性,缓存这些区域相关的中间计算、跨帧复用,把冗余的 attention 直接砍掉。结果是 LiveEdit 在自建的 streaming video editing benchmark 上把推理速度推到 12.66 FPS——意味着在 AR 头显、直播滤镜、视频会议里,实时扩散编辑第一次真的可以部署。它在视觉质量上还 SOTA 于已有 streaming baseline。代码已开源(github.com/cp-cp/LiveEdit),项目页 live-edit.github.io。评论:扩散视频编辑 2026 之前的瓶颈是双向 vs 实时——双向保留好但慢,单向快但易漂移。LiveEdit 用蒸馏保能力 + 缓存省算力这套组合拳,把这两端的 trade-off 明显往能落地那端推了一步。AR / 直播 / 视频会议的下一波实时编辑类应用,大概率都会从这条路径出发。