Vidu S1 把视频模型带向“实时交互”:AR + Diffusion 在消费级 GPU 上跑通无限时长

生数科技 7 月 3 日在 2026 全球数字经济大会上正式发布 Vidu S1,把视频生成从“一次性出片”推进到“无限时实时交互”。 技术上,S1 采用自回归 + 扩散(AR + Diffusion)混合架构:逐帧基于已生成画面、语音输入与对话上下文预测下一段内容,打破固定时长约束,并能在消费级 GPU 上输出 540P @ 25 FPS(最高 42 FPS)的实时视频流。底层推理栈融合生数自研的 TurboDiffusion、8-bit SageAttention 和 SLA / SpargeAttention 等稀疏注意力,配合 TurboServe 推理引擎动态调度算力,把通常需要服务器集群的实时视频对话下沉到单卡级别。 交互层面,S1 不只驱动唇形,而是直接解析语音里的语义、意图与情绪,同步生成表情、眼神、手势与肢体动作;角色创建也被压缩到单张图片 + 一段音色,无需建模、绑定或单独训练。 S1 的方向更值得关注:过去 Sora、可灵走的是“全段去噪”路线,实时性与无限时长都是天然短板;AR + Diffusion 把“持续生成 + 在线响应”放到与画质同等重要的位置。AI 视频正从“内容生产工具”迈向“持续存在的交互代理”,对虚拟主播、AI 陪伴、互动游戏与 XR 等场景的影响将是结构性的。