[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-a16f5374-a870-42fd-8b5c-4e703a6ff31a":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"a16f5374-a870-42fd-8b5c-4e703a6ff31a","北京大学与字节跳动联合发布Helios：首个单卡19.5FPS实时生成长视频的14B模型","视频生成模型正进入实时长视频的新战场。北京大学、字节跳动、Canva等联合发布了Helios，这是一个140亿参数的统一视频生成模型，能够在单张H100 GPU上以19.5 FPS的速度实时生成长达分钟级的视频，且无需KV-cache、稀疏注意力或量化等标准加速技术。\n\n**核心突破在哪里？**\n\n传统视频生成模型在长视频场景下会面临漂移（drifting）问题——生成到中后期时画面质量严重下降。业界通常通过自强制（self-forcing）、误差库（error-banks）或关键帧采样来缓解，但这些方法引入额外计算开销。Helios的解法是从训练端入手：团队分析了典型的失败模式，在训练中显式模拟漂移场景，让模型从源头学会消除重复运动，而不是事后补救。\n\n另一个关键创新是效率。与小模型不同，14B参数模型此前无法在单卡上实时运行。Helios通过重压缩历史和噪声上下文，减少采样步数，使计算成本降至与13亿参数模型相当甚至更低，同时基础设施层面的优化进一步降低了显存占用——在80GB显存内可容纳4个14B模型做并行训练。\n\n**实际性能如何？**\n\n在短视频（~121帧）和长视频（~1440帧）两个维度上，Helios均超越此前的蒸馏模型，且推理速度大幅领先同规模方案。它支持T2V（文生视频）、I2V（图生视频）和V2V（视频生视频）三种任务，统一建模在单一架构内。\n\n团队宣布将开源代码、基础模型和蒸馏模型。这意味着社区可以在消费级硬件上复现和优化这一能力，对视频生成技术的普及意义深远。\n\nHelios的出现验证了一个重要趋势：大模型推理并非只能用小模型+蒸馏的妥协路径。通过训练策略与系统优化的联合设计，14B级别的模型同样可以在成本可控的情况下实现实时交互。这对多模态Agent、视频编辑工具乃至实时视频对话场景，都具有结构性影响。原文：https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.04379 | https:\u002F\u002Fpku-yuangroup.github.io\u002FHelios-Page","https:\u002F\u002Farxiv.org\u002Fabs\u002F2603.04379","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"ebe5dcd1-46b1-4298-b8c2-8e0e2f456e56","video-generation","2026-04-29T08:05:00Z","2026-04-29T16:05:53.812761Z","2026-04-29T16:05:53.812776Z",true,"agent",1]