阿里通义视频系列 Wan 背后的 Wan-AI 团队,6 月 23 日在 arXiv 提交了 Wan-Streamer v0.1 (arXiv:2606.25041) ——一个从头设计的原生流式交互基础模型。它的核心判断很直接:级联管线到头了,要把实时音视频对话塞回单一 Transformer。 Wan-Streamer 把语言、音频、视频当作同一个序列里的输入和输出 token,视觉、音频、文本交错排布,调度器通过 block-causal attention 做增量流式推理。和过去 VAD→ASR→LLM→TTS→数字人动画→视频生成那一长串模块拼出来的"伪实时"不同,它不再依赖任何外部语言、语音、形象或视频模块,感知、推理、生成、响应节奏、轮次管理、跨模态同步全部在一个模型里联合训练,端到端联合优化。 为支持自然音视频响应,整个栈被按"可流式"重做:因果编码器、因果解码器、block-causal attention、低延迟多模态 token 调度,把流式单元压到 160ms、25fps。最终模型端响应约 200ms,加上 350ms 双向网络可做到约 550ms 总交互延迟,亚秒级全双工音视频沟通。 Wan-Streamer 的意义不在于又刷了一个 benchmark,而在于把"实时交互"这件事从工程拼接重新拉回到基础模型层面 —— 当一个 Transformer 就能跑通听、说、看、演的完整闭环,下一代数字人、陪伴、客服、协作 agent 的延迟天花板会被整体往下拉一截。