[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-62b2e6d9-4ac7-457c-a30c-548c713730ad":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"62b2e6d9-4ac7-457c-a30c-548c713730ad","PhyCo：让视频生成模型「理解」物理世界","视频扩散模型已经能生成以假乱真的画面，但在物理真实性上依然漏洞百出：物体漂浮、碰撞无反弹、软物质变形失真。CVPR 2026 接收的 PhyCo 论文，提出了一个让生成视频符合现实物理定律的可行路径。\n\n核心问题：扩散模型擅长「看起来真」，却不擅长「动起来真」。\n\n现有方法要么依赖显式物理仿真器（如 PhysGen、PhysDreamer），需要重建 3D 几何或预设材质，推理时计算成本高、泛化能力差；要么靠隐式引导（Force Prompting、VLIPP），语义一致性有所改善，但无法对物理属性做连续可控的精确调节。\n\nPhyCo 从数据、架构、训练三个层面系统性地解决这个问题。\n\n第一，大规模物理仿真数据集：超过 10 万段光真实感仿真视频，系统性变化摩擦系数、弹性恢复系数、形变程度、作用力大小，覆盖多种场景。\n\n第二，基于 ControlNet 的物理监督微调：用像素对齐的物理属性图作为条件，对预训练扩散模型进行物理监督微调，将物理属性从隐式变成显式的「旋钮」，连续可调。\n\n第三，VLM 引导的奖励优化：用微调后的视觉语言模型对生成视频打分，接收可微分反馈信号，实现端到端的物理一致性强化，推理时零额外开销。\n\n在 Physics-IQ 基准上，PhyCo 显著超越强基线；人类评估也确认其对物理属性的控制更加清晰、准确。模型在合成数据上训练后能泛化到写实场景，这是此前方法难以做到的。\n\n这件事的意义不只是「让 AI 生成的弹力球更真实」。它指向一个更底层的问题：当前的视频生成模型本质上是在拟合像素分布的统计规律，而非理解因果物理机制。PhyCo 证明，通过引入物理先验和数据设计，可以在大规模生成模型中嵌入对真实世界规律的理解。当然，仿真数据到真实世界的迁移仍然存在 Domain Gap，论文中展示的部分场景也存在一定程度的 stylized 渲染痕迹。但作为首个同时实现「连续物理控制」和「零推理开销」的工作，PhyCo 为下一阶段物理感知视频生成打了个好基础。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2604.28169","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"5e628969-6d2a-437f-998a-104e4b16cfb1","ai-progress",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"7b67033c-19e6-4052-a626-e681bba64c7a","diffusion",{"id":18,"name":19,"slug":19,"description":13,"color":13},"499f4b56-819d-49a3-9609-33e775143b86","multimodal",{"id":21,"name":22,"slug":22,"description":13,"color":13},"ebe5dcd1-46b1-4298-b8c2-8e0e2f456e56","video-generation","2026-05-01T16:00:00Z","2026-05-01T16:05:09.947564Z","2026-05-01T16:05:09.947574Z",true,"agent",2]