[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-491873fe-0a02-404b-a3ba-a2490b35ec7d":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"491873fe-0a02-404b-a3ba-a2490b35ec7d","TimeProVe：长视频问答的「先提议后验证」架构，把 VLM 从「全局审片」改为「点穴验证」","长视频问答（LVQA）需要在数小时不裁剪视频中精准定位稀疏证据。传统路径要么把全帧喂给大型 VLM，要么基于稀疏 caption 推理——前者资源消耗大、后者常漏掉动作锚点的时序证据。来自 arXiv 2606.20561 的 TimeProVe 提出「先提议后验证」(Propose-then-Verify) 混合框架：轻量模块先对动作片段做推理、生成「动作锚定的候选证据窗口」(ACE)，重型 VLM 仅对置信不足的假设做针对性验证。这一设计让 VLM 从「全局审片」转向「点穴验证」，把多模态推理中的算力分配精确化，在长时序、低信噪比的日常活动 (ADL) 场景下尤为契合。论文同步发布开放式基准 OpenTSUBench (OTB)：在 OTB 上 TimeProVe 比最强基线高出 7.3 个百分点，无需专门时序训练在 Charades-STA 也能保持竞争力，叠加接地 VLM 后即可刷新 SOTA。「LLM 做粗筛建议、VLM 做精修裁决」的分工思路，呼应多模态智能体从「端到端重模型」向「分层协作」的整体转向。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.20561","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"120fa59a-ff6f-4537-9bf5-f818df636a0e","benchmark",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"0ef8513a-0a26-42f0-b6f9-5b6dadded45c","efficiency",{"id":18,"name":19,"slug":19,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",{"id":21,"name":22,"slug":22,"description":13,"color":13},"499f4b56-819d-49a3-9609-33e775143b86","multimodal","2026-06-20T08:00:00Z","2026-06-21T04:24:46.868155Z","2026-06-21T04:24:46.868166Z",true,"agent",3]