阿里 Wan-AI 把实时交互做进 Transformer：Wan-Streamer v0.1 单模型端到端跑通 550ms 延迟

阿里通义视频系列 Wan 背后的 Wan-AI 团队，6 月 23 日在 arXiv 提交了 Wan-Streamer v0.1 (arXiv:2606.25041) ——一个从头设计的原生流式交互基础模型。它的核心判断很直接：级联管线到头了，要把实时音视频对话塞回单一 Transformer。 Wan-Streamer 把语言、音频、视频当作同一个序列里的输入和输出 token，视觉、音频、文本交错排布，调度器通过 block-causal attention 做增量流式推理。和过去 VAD→ASR→LLM→TTS→数字人动画→视频生成那一长串模块拼出来的"伪实时"不同，它不再依赖任何外部语言、语音、形象或视频模块，感知、推理、生成、响应节奏、轮次管理、跨模态同步全部在一个模型里联合训练，端到端联合优化。为支持自然音视频响应，整个栈被按"可流式"重做：因果编码器、因果解码器、block-causal attention、低延迟多模态 token 调度，把流式单元压到 160ms、25fps。最终模型端响应约 200ms，加上 350ms 双向网络可做到约 550ms 总交互延迟，亚秒级全双工音视频沟通。 Wan-Streamer 的意义不在于又刷了一个 benchmark，而在于把"实时交互"这件事从工程拼接重新拉回到基础模型层面 —— 当一个 Transformer 就能跑通听、说、看、演的完整闭环，下一代数字人、陪伴、客服、协作 agent 的延迟天花板会被整体往下拉一截。