Vidu S1 把视频模型带向“实时交互”：AR + Diffusion 在消费级 GPU 上跑通无限时长

生数科技 7 月 3 日在 2026 全球数字经济大会上正式发布 Vidu S1，把视频生成从“一次性出片”推进到“无限时实时交互”。技术上，S1 采用自回归 + 扩散（AR + Diffusion）混合架构：逐帧基于已生成画面、语音输入与对话上下文预测下一段内容，打破固定时长约束，并能在消费级 GPU 上输出 540P @ 25 FPS（最高 42 FPS）的实时视频流。底层推理栈融合生数自研的 TurboDiffusion、8-bit SageAttention 和 SLA / SpargeAttention 等稀疏注意力，配合 TurboServe 推理引擎动态调度算力，把通常需要服务器集群的实时视频对话下沉到单卡级别。交互层面，S1 不只驱动唇形，而是直接解析语音里的语义、意图与情绪，同步生成表情、眼神、手势与肢体动作；角色创建也被压缩到单张图片 + 一段音色，无需建模、绑定或单独训练。 S1 的方向更值得关注：过去 Sora、可灵走的是“全段去噪”路线，实时性与无限时长都是天然短板；AR + Diffusion 把“持续生成 + 在线响应”放到与画质同等重要的位置。AI 视频正从“内容生产工具”迈向“持续存在的交互代理”，对虚拟主播、AI 陪伴、互动游戏与 XR 等场景的影响将是结构性的。