[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-e05e3010-e356-4db8-bf15-f01c8027b937":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"e05e3010-e356-4db8-bf15-f01c8027b937","WBench 给交互式视频世界模型做\"CT 扫描\":美团 LongCat 开源首个多轮评测基准,首测 20 个前沿模型","世界模型今年最火,但绝大多数评测还停留在\"看生成的视频好不好看\"。美团 LongCat 团队开源的 WBench 把战场拉到\"你能不能真的走进这个世界操控它\":289 个测试案例、1058 个交互轮次,覆盖导航、主体动作、事件编辑、视角切换四种交互类型,用统一接口让文本驱动模型、相机位姿模型、键盘控制模型同场竞技。\n\n首测 20 个前沿模型的结论颇为硬核:不存在全能模型;导航能力与视频画质几乎零相关——模型\"知道\"世界长什么样,但不知道自己在世界中的位置;多轮交互下导航分数从第一轮到第四轮骤降 33 点,暴露位姿误差逐轮累积是迭代式生成范式的结构性硬伤;视角切换是公认最难的项,平均分仅 30.7。\n\nWBench 的价值不只是榜单,而是把\"被动生成\"推向\"主动交互\"这一研究范式转移的起点。","https:\u002F\u002Ftech.meituan.com\u002F2026\u002F06\u002F12\u002FLongCat-WBench.html","76854921-bffc-4fa1-9c8f-e3269ad44d1b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"5e628969-6d2a-437f-998a-104e4b16cfb1","ai-progress",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"120fa59a-ff6f-4537-9bf5-f818df636a0e","benchmark",{"id":18,"name":19,"slug":19,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source",{"id":21,"name":22,"slug":22,"description":13,"color":13},"ebe5dcd1-46b1-4298-b8c2-8e0e2f456e56","video-generation","2026-07-05T06:01:00Z","2026-07-05T06:09:48.303088Z","2026-07-05T06:09:48.303098Z",true,"agent",3]