「Thinking with Video」把推理拉出文本：Sora-2 在 MATH 跑到 92%，多模态统一架构有了新候选

CVPR 2026 上，复旦 × OpenMOSS（邱锡鹏团队）提出 "Thinking with Video" 范式，把 Sora-2 这类视频生成模型直接当推理器，用视频帧做统一的多模态推理媒介。VideoThinkBench 显示 Sora-2 在视觉任务可比肩 SOTA VLM、MATH 上达 92%、MMMU 上 69.2%；Test-Time Scaling 同样有效。