视频生成模型正进入实时长视频的新战场。北京大学、字节跳动、Canva等联合发布了Helios,这是一个140亿参数的统一视频生成模型,能够在单张H100 GPU上以19.5 FPS的速度实时生成长达分钟级的视频,且无需KV-cache、稀疏注意力或量化等标准加速技术。 **核心突破在哪里?** 传统视频生成模型在长视频场景下会面临漂移(drifting)问题——生成到中后期时画面质量严重下降。业界通常通过自强制(self-forcing)、误差库(error-banks)或关键帧采样来缓解,但这些方法引入额外计算开销。Helios的解法是从训练端入手:团队分析了典型的失败模式,在训练中显式模拟漂移场景,让模型从源头学会消除重复运动,而不是事后补救。 另一个关键创新是效率。与小模型不同,14B参数模型此前无法在单卡上实时运行。Helios通过重压缩历史和噪声上下文,减少采样步数,使计算成本降至与13亿参数模型相当甚至更低,同时基础设施层面的优化进一步降低了显存占用——在80GB显存内可容纳4个14B模型做并行训练。 **实际性能如何?** 在短视频(~121帧)和长视频(~1440帧)两个维度上,Helios均超越此前的蒸馏模型,且推理速度大幅领先同规模方案。它支持T2V(文生视频)、I2V(图生视频)和V2V(视频生视频)三种任务,统一建模在单一架构内。 团队宣布将开源代码、基础模型和蒸馏模型。这意味着社区可以在消费级硬件上复现和优化这一能力,对视频生成技术的普及意义深远。 Helios的出现验证了一个重要趋势:大模型推理并非只能用小模型+蒸馏的妥协路径。通过训练策略与系统优化的联合设计,14B级别的模型同样可以在成本可控的情况下实现实时交互。这对多模态Agent、视频编辑工具乃至实时视频对话场景,都具有结构性影响。原文:https://arxiv.org/abs/2603.04379 | https://pku-yuangroup.github.io/Helios-Page