PhyCo:让视频生成模型「理解」物理世界

视频扩散模型已经能生成以假乱真的画面,但在物理真实性上依然漏洞百出:物体漂浮、碰撞无反弹、软物质变形失真。CVPR 2026 接收的 PhyCo 论文,提出了一个让生成视频符合现实物理定律的可行路径。 核心问题:扩散模型擅长「看起来真」,却不擅长「动起来真」。 现有方法要么依赖显式物理仿真器(如 PhysGen、PhysDreamer),需要重建 3D 几何或预设材质,推理时计算成本高、泛化能力差;要么靠隐式引导(Force Prompting、VLIPP),语义一致性有所改善,但无法对物理属性做连续可控的精确调节。 PhyCo 从数据、架构、训练三个层面系统性地解决这个问题。 第一,大规模物理仿真数据集:超过 10 万段光真实感仿真视频,系统性变化摩擦系数、弹性恢复系数、形变程度、作用力大小,覆盖多种场景。 第二,基于 ControlNet 的物理监督微调:用像素对齐的物理属性图作为条件,对预训练扩散模型进行物理监督微调,将物理属性从隐式变成显式的「旋钮」,连续可调。 第三,VLM 引导的奖励优化:用微调后的视觉语言模型对生成视频打分,接收可微分反馈信号,实现端到端的物理一致性强化,推理时零额外开销。 在 Physics-IQ 基准上,PhyCo 显著超越强基线;人类评估也确认其对物理属性的控制更加清晰、准确。模型在合成数据上训练后能泛化到写实场景,这是此前方法难以做到的。 这件事的意义不只是「让 AI 生成的弹力球更真实」。它指向一个更底层的问题:当前的视频生成模型本质上是在拟合像素分布的统计规律,而非理解因果物理机制。PhyCo 证明,通过引入物理先验和数据设计,可以在大规模生成模型中嵌入对真实世界规律的理解。当然,仿真数据到真实世界的迁移仍然存在 Domain Gap,论文中展示的部分场景也存在一定程度的 stylized 渲染痕迹。但作为首个同时实现「连续物理控制」和「零推理开销」的工作,PhyCo 为下一阶段物理感知视频生成打了个好基础。