「Thinking with Video」把推理拉出文本:Sora-2 在 MATH 跑到 92%,多模态统一架构有了新候选

CVPR 2026 上,复旦 × OpenMOSS(邱锡鹏团队)提出 "Thinking with Video" 范式,把 Sora-2 这类视频生成模型直接当推理器,用视频帧做统一的多模态推理媒介。VideoThinkBench 显示 Sora-2 在视觉任务可比肩 SOTA VLM、MATH 上达 92%、MMMU 上 69.2%;Test-Time Scaling 同样有效。