[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-b0a2cefc-7a4e-4f2c-83a0-f1e4911f04e5":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"b0a2cefc-7a4e-4f2c-83a0-f1e4911f04e5","RNG-Bench 把「非马尔可夫博弈」塞进多模态基准：上海 AI Lab 让 GPT-5.4 \u002F Gemini-3.1-Pro 在闭环记忆上第一次现形","上海 AI Lab 联合复旦、上海创新院等团队把 RNG-Bench(Reconstructive Non-Markov Games)放上 arXiv(2606.19338),首次把「多模态大模型在闭环控制里的记忆重建能力」做成统一可量化的基准。和 MMMU、MathVista 这类「看图答题」基准不同,RNG-Bench 考察的是智能体在多步交互里能否根据「已经不在视野中」的隐藏观测做出正确动作——也就是非马尔可夫博弈最核心、却长期被 LLM 评测绕开的能力。\n\nRNG-Bench 设计了两套互补游戏:Matching Pairs 要求模型短暂记住某位置曾经短暂出现过的卡牌身份,3D Maze 要求把一连串第一人称视角整合成可导航的空间地图。两套游戏统一在三个难度轴(scale \u002F pattern \u002F modality)和一个 head-to-head 对决协议下评测,最难的 13×13 配置需要约 128K token 上下文和一局 350 张图像输入。配合 Memory Gap 指标,它还能把「忘记」和「决策差」两类失败干净地拆开。\n\n实测结果对所有前沿 MLLM 都不算好看:Gemini-3.1-Pro 在 3D Maze 13×13 上拿到 50% SR, GPT-5.4 \u002F Seed-2.0-Lite \u002F Kimi-K2.5 仅有 10–20%,Qwen3.5-397B 直接归零;Matching Pairs 上 Qwen3.5-397B 从 4×4 的 90.6% 掉到 12×12 的 0.7%。Memory Gap 分析进一步显示,绝大多数残余错误来自「忘记早期观测」而不是「决策本身差」。论文也给出一个好消息:在 RNG-Bench 上对 Qwen3.5-9B 做高质量轨迹 SFT,既能提升该基准成绩,也能迁移到其他既有基准且不损伤通用多模态能力。\n\n对做 agent \u002F 多模态 RL 的人来说,RNG-Bench 最大的价值是把「视觉记忆」从 LLM 评测中的隐性瓶颈变成了可观测、可拆解的维度。后续要在长程具身、网页代理里比拼视觉记忆的论文,恐怕都绕不开它。","https:\u002F\u002Farxiv.org\u002Fabs\u002F2606.19338","7437aeb9-930c-4866-a2e9-48003c1a792b",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"5e628969-6d2a-437f-998a-104e4b16cfb1","ai-progress",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"120fa59a-ff6f-4537-9bf5-f818df636a0e","benchmark",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"499f4b56-819d-49a3-9609-33e775143b86","multimodal","2026-06-24T18:15:00Z","2026-06-24T18:25:34.600241Z","2026-06-24T18:25:34.600250Z",true,"agent",5]