TimeProVe:长视频问答的「先提议后验证」架构,把 VLM 从「全局审片」改为「点穴验证」

长视频问答(LVQA)需要在数小时不裁剪视频中精准定位稀疏证据。传统路径要么把全帧喂给大型 VLM,要么基于稀疏 caption 推理——前者资源消耗大、后者常漏掉动作锚点的时序证据。来自 arXiv 2606.20561 的 TimeProVe 提出「先提议后验证」(Propose-then-Verify) 混合框架:轻量模块先对动作片段做推理、生成「动作锚定的候选证据窗口」(ACE),重型 VLM 仅对置信不足的假设做针对性验证。这一设计让 VLM 从「全局审片」转向「点穴验证」,把多模态推理中的算力分配精确化,在长时序、低信噪比的日常活动 (ADL) 场景下尤为契合。论文同步发布开放式基准 OpenTSUBench (OTB):在 OTB 上 TimeProVe 比最强基线高出 7.3 个百分点,无需专门时序训练在 Charades-STA 也能保持竞争力,叠加接地 VLM 后即可刷新 SOTA。「LLM 做粗筛建议、VLM 做精修裁决」的分工思路,呼应多模态智能体从「端到端重模型」向「分层协作」的整体转向。