JoyAI-VL-Interaction: 京东把 8B 多模态模型变成"实时在场"的视频交互体

当前主流 VLM——包括 GPT-Realtime-2、Qwen3.5-Omni 等端到端 omni 模型——本质仍是 turn-based:用户说完才回话,轮次不到就静默。豆包和 Gemini 的"视频通话"功能看似实时,但要么靠周期性触发把背景请求推到 VLM 上,要么干脆停留在"一问一答"模式,对屏幕中即时发生的事件根本无法在秒级做出反应。 JoyAI-VL-Interaction 把"何时行动"作为模型每秒学习到的一次显式决策:每秒钟,模型在三个动作中选择——说话、保持沉默、或把难题 delegate 到异步后台模型。沉默被当作与说话、delegate 等价的一类动作,这是该工作的核心转向。 技术上模型基于 Qwen3-8B + Qwen3-VL ViT,引入 AdaCodec 视频编码:仅在参考帧用完整 ViT token,可预测的中间帧压缩为 16 个 P-token,长视频 token 预算不再线性爆炸。在六个真实场景(监控告警、实时翻译、计数、直播解说等)的成对人类评测中,它在"最讲求时机"的监控告警场景对豆包和 Gemini 全部告胜;实时翻译、计数场景从未落败。 值得关注的另一条线索:Thinking Machines Lab(TML)几乎同时提出"interaction model"概念,但他们的实现是 276B MoE(12B active)的端到端音频-视觉融合模型;京东选择把 8B 紧凑模型 + 视觉优先 + 全部开源,把实时交互能力从大型闭源研究预览变成可复现、可本地部署、可二次开发的栈。这是 2026 上半年开源多模态里少见的、同时给出"模型+训练方案+数据+完整部署系统"的四件套。