Qwen 团队 ICML 2026 投稿 OmniAgent(arXiv 2606.19341),把全模态视频理解从「逐帧看完全片」改造成「观察-思考-行动」循环。基模仅 Qwen2.5-Omni-7B,却在 LVBench 上以 50.5 反超 10 倍体量的 Qwen2.5-VL-72B(47.3),长视频推理成本首次与时长解耦。 核心是把过程建模为 POMDP:状态由持续累积的文本记忆承载,模型每轮从 get_frames / get_audio / get_clip / answer 四个动作里挑一个取证,瞬时多模态信号被蒸馏进长程记忆后再消失,预算从此跟查询难度绑定,而非视频秒数。 训练走 Agentic SFT + Agentic RL 两步。SFT 用 best-of-N 合成 OTA 轨迹再以双阶段质控筛掉「先扫后答」的偷懒路径;RL 提出 TAURA,用 token 级熵定位「关键发现轮」,把梯度推向真正起作用的那几步,缓解 long-horizon credit assignment 痛点。亮点是「正向测试时 scaling」——推理轮数越多分数越高,证明模型真在主动观察而非盲目回看。 落地启示:长视频 QA、监控复盘、线上教学等场景,第一次有了「按需点穴」的可工程化路径。