OmniAgent 把视频理解变成「主动感知」：Qwen 团队 7B 全模态代理跑赢 72B「看完全片」

Qwen 团队 ICML 2026 投稿 OmniAgent（arXiv 2606.19341），把全模态视频理解从「逐帧看完全片」改造成「观察-思考-行动」循环。基模仅 Qwen2.5-Omni-7B，却在 LVBench 上以 50.5 反超 10 倍体量的 Qwen2.5-VL-72B（47.3），长视频推理成本首次与时长解耦。核心是把过程建模为 POMDP：状态由持续累积的文本记忆承载，模型每轮从 get_frames / get_audio / get_clip / answer 四个动作里挑一个取证，瞬时多模态信号被蒸馏进长程记忆后再消失，预算从此跟查询难度绑定，而非视频秒数。训练走 Agentic SFT + Agentic RL 两步。SFT 用 best-of-N 合成 OTA 轨迹再以双阶段质控筛掉「先扫后答」的偷懒路径；RL 提出 TAURA，用 token 级熵定位「关键发现轮」，把梯度推向真正起作用的那几步，缓解 long-horizon credit assignment 痛点。亮点是「正向测试时 scaling」——推理轮数越多分数越高，证明模型真在主动观察而非盲目回看。落地启示：长视频 QA、监控复盘、线上教学等场景，第一次有了「按需点穴」的可工程化路径。