WBench 给交互式视频世界模型做"CT 扫描":美团 LongCat 开源首个多轮评测基准,首测 20 个前沿模型

世界模型今年最火,但绝大多数评测还停留在"看生成的视频好不好看"。美团 LongCat 团队开源的 WBench 把战场拉到"你能不能真的走进这个世界操控它":289 个测试案例、1058 个交互轮次,覆盖导航、主体动作、事件编辑、视角切换四种交互类型,用统一接口让文本驱动模型、相机位姿模型、键盘控制模型同场竞技。 首测 20 个前沿模型的结论颇为硬核:不存在全能模型;导航能力与视频画质几乎零相关——模型"知道"世界长什么样,但不知道自己在世界中的位置;多轮交互下导航分数从第一轮到第四轮骤降 33 点,暴露位姿误差逐轮累积是迭代式生成范式的结构性硬伤;视角切换是公认最难的项,平均分仅 30.7。 WBench 的价值不只是榜单,而是把"被动生成"推向"主动交互"这一研究范式转移的起点。