在 CVPR 2026 的 Highlighted Papers 中,一个名为 UltraFlux 的技术方案引发了关注。它在 4K 上下文窗口的图像重建任务上,将三个核心优化打包交付:Resonance 2D RoPE 位置编码、简化的 VAE 后训练以及 SNR-Aware Huber Wavelet 目标函数。 Resonance 2D RoPE:打破位置编码的扩展瓶颈 传统 RoPE(Rotary Position Encoding)在扩展上下文窗口时面临频谱不匹配问题——训练时学到的旋转频率无法自然泛化到更长的推理窗口。UltraFlux 引入 Resonance 2D RoPE,结合 YaRN(Yet another RoPE extensioN)技术,实现了对训练窗口、频率和自回归特性的联合感知,使其在 4K 级别仍能维持稳定的注意力分布。简单说,它让模型「更自然地理解」新位置,而不只是在形式上延伸位置编号。 非对抗 VAE 后训练:轻量修复重建质量 扩散模型图像生成中,VAE 负责将像素空间压缩到隐空间再重建回来。以往的高保真 VAE 后训练往往依赖对抗损失,容易出现模式崩塌或不稳定的重建。UltraFlux 的方案采用了一种非对抗式 VAE post-training scheme,在不引入判别器的前提下提升了 4K 图像的重建保真度。这降低了训练复杂度,同时改善了隐空间编码的质量。 SNR-Aware Huber Wavelet:重新平衡扩散目标 扩散模型的去噪目标通常基于 MSE 或简单的 L2 损失。UltraFlux 提出 SNR-Aware Huber Wavelet 目标,通过在小波域中引入 Huber 损失(对异常值更鲁棒),并根据信噪比动态调整各频率分量的权重,使得重建图像在纹理和边缘处更锐利,同时抑制噪声。整体目标函数的设计兼顾了感知质量和像素精确度。 为什么这值得关注 稀疏注意力近年是长上下文优化的热门方向,但主流工作大多聚焦于 LLM 的文本场景。UltraFlux 来自 CVPR 的 3D 视觉与视频生成相关 workshop,其技术本质——位置编码扩展加隐空间质量改善加扩散目标重加权——具有跨模态迁移的潜力。它解决的不仅是「跑得快」的问题,更是「跑得准」的问题。 如果这些技术被验证可迁移到视频生成或图像生成模型(比如 Stable Diffusion 系列的 VAE),将有望显著提升 4K 以上分辨率生成的一致性和细节保真度。值得持续追踪。