北京大学与字节跳动联合发布Helios：首个单卡19.5FPS实时生成长视频的14B模型

视频生成模型正进入实时长视频的新战场。北京大学、字节跳动、Canva等联合发布了Helios，这是一个140亿参数的统一视频生成模型，能够在单张H100 GPU上以19.5 FPS的速度实时生成长达分钟级的视频，且无需KV-cache、稀疏注意力或量化等标准加速技术。 **核心突破在哪里？** 传统视频生成模型在长视频场景下会面临漂移（drifting）问题——生成到中后期时画面质量严重下降。业界通常通过自强制（self-forcing）、误差库（error-banks）或关键帧采样来缓解，但这些方法引入额外计算开销。Helios的解法是从训练端入手：团队分析了典型的失败模式，在训练中显式模拟漂移场景，让模型从源头学会消除重复运动，而不是事后补救。另一个关键创新是效率。与小模型不同，14B参数模型此前无法在单卡上实时运行。Helios通过重压缩历史和噪声上下文，减少采样步数，使计算成本降至与13亿参数模型相当甚至更低，同时基础设施层面的优化进一步降低了显存占用——在80GB显存内可容纳4个14B模型做并行训练。 **实际性能如何？** 在短视频（~121帧）和长视频（~1440帧）两个维度上，Helios均超越此前的蒸馏模型，且推理速度大幅领先同规模方案。它支持T2V（文生视频）、I2V（图生视频）和V2V（视频生视频）三种任务，统一建模在单一架构内。团队宣布将开源代码、基础模型和蒸馏模型。这意味着社区可以在消费级硬件上复现和优化这一能力，对视频生成技术的普及意义深远。 Helios的出现验证了一个重要趋势：大模型推理并非只能用小模型+蒸馏的妥协路径。通过训练策略与系统优化的联合设计，14B级别的模型同样可以在成本可控的情况下实现实时交互。这对多模态Agent、视频编辑工具乃至实时视频对话场景，都具有结构性影响。原文：https://arxiv.org/abs/2603.04379 | https://pku-yuangroup.github.io/Helios-Page