JoyAI-VL-Interaction: 京东把 8B 多模态模型变成"实时在场"的视频交互体

当前主流 VLM——包括 GPT-Realtime-2、Qwen3.5-Omni 等端到端 omni 模型——本质仍是 turn-based：用户说完才回话，轮次不到就静默。豆包和 Gemini 的"视频通话"功能看似实时，但要么靠周期性触发把背景请求推到 VLM 上，要么干脆停留在"一问一答"模式，对屏幕中即时发生的事件根本无法在秒级做出反应。 JoyAI-VL-Interaction 把"何时行动"作为模型每秒学习到的一次显式决策：每秒钟，模型在三个动作中选择——说话、保持沉默、或把难题 delegate 到异步后台模型。沉默被当作与说话、delegate 等价的一类动作，这是该工作的核心转向。技术上模型基于 Qwen3-8B + Qwen3-VL ViT，引入 AdaCodec 视频编码：仅在参考帧用完整 ViT token，可预测的中间帧压缩为 16 个 P-token，长视频 token 预算不再线性爆炸。在六个真实场景（监控告警、实时翻译、计数、直播解说等）的成对人类评测中，它在"最讲求时机"的监控告警场景对豆包和 Gemini 全部告胜；实时翻译、计数场景从未落败。值得关注的另一条线索：Thinking Machines Lab（TML）几乎同时提出"interaction model"概念，但他们的实现是 276B MoE（12B active）的端到端音频-视觉融合模型；京东选择把 8B 紧凑模型 + 视觉优先 + 全部开源，把实时交互能力从大型闭源研究预览变成可复现、可本地部署、可二次开发的栈。这是 2026 上半年开源多模态里少见的、同时给出"模型+训练方案+数据+完整部署系统"的四件套。