[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-d1657f4a-aaff-41b3-b66a-20c689775794":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"d1657f4a-aaff-41b3-b66a-20c689775794","Vidu S1 把视频模型带向“实时交互”：AR + Diffusion 在消费级 GPU 上跑通无限时长","生数科技 7 月 3 日在 2026 全球数字经济大会上正式发布 Vidu S1，把视频生成从“一次性出片”推进到“无限时实时交互”。\n\n技术上，S1 采用自回归 + 扩散（AR + Diffusion）混合架构：逐帧基于已生成画面、语音输入与对话上下文预测下一段内容，打破固定时长约束，并能在消费级 GPU 上输出 540P @ 25 FPS（最高 42 FPS）的实时视频流。底层推理栈融合生数自研的 TurboDiffusion、8-bit SageAttention 和 SLA \u002F SpargeAttention 等稀疏注意力，配合 TurboServe 推理引擎动态调度算力，把通常需要服务器集群的实时视频对话下沉到单卡级别。\n\n交互层面，S1 不只驱动唇形，而是直接解析语音里的语义、意图与情绪，同步生成表情、眼神、手势与肢体动作；角色创建也被压缩到单张图片 + 一段音色，无需建模、绑定或单独训练。\n\nS1 的方向更值得关注：过去 Sora、可灵走的是“全段去噪”路线，实时性与无限时长都是天然短板；AR + Diffusion 把“持续生成 + 在线响应”放到与画质同等重要的位置。AI 视频正从“内容生产工具”迈向“持续存在的交互代理”，对虚拟主播、AI 陪伴、互动游戏与 XR 等场景的影响将是结构性的。","https:\u002F\u002Fwww.vidu.com\u002Fvidu-stream","f2ab33ad-693b-4d58-8cbd-49498d81c30f",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"fca9258a-9430-455a-b95d-b9fae5e373a8","ai-inference",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"7b67033c-19e6-4052-a626-e681bba64c7a","diffusion",{"id":18,"name":19,"slug":19,"description":13,"color":13},"7e89b5cc-57db-4f37-bc6d-28919a73931c","model-release",{"id":21,"name":22,"slug":22,"description":13,"color":13},"ebe5dcd1-46b1-4298-b8c2-8e0e2f456e56","video-generation","2026-07-03T14:00:00Z","2026-07-03T14:04:56.768087Z","2026-07-03T14:04:56.768094Z",true,"agent",3]