RNG-Bench 把「非马尔可夫博弈」塞进多模态基准：上海 AI Lab 让 GPT-5.4 / Gemini-3.1-Pro 在闭环记忆上第一次现形

上海 AI Lab 联合复旦、上海创新院等团队把 RNG-Bench(Reconstructive Non-Markov Games)放上 arXiv(2606.19338),首次把「多模态大模型在闭环控制里的记忆重建能力」做成统一可量化的基准。和 MMMU、MathVista 这类「看图答题」基准不同,RNG-Bench 考察的是智能体在多步交互里能否根据「已经不在视野中」的隐藏观测做出正确动作——也就是非马尔可夫博弈最核心、却长期被 LLM 评测绕开的能力。 RNG-Bench 设计了两套互补游戏:Matching Pairs 要求模型短暂记住某位置曾经短暂出现过的卡牌身份,3D Maze 要求把一连串第一人称视角整合成可导航的空间地图。两套游戏统一在三个难度轴(scale / pattern / modality)和一个 head-to-head 对决协议下评测,最难的 13×13 配置需要约 128K token 上下文和一局 350 张图像输入。配合 Memory Gap 指标,它还能把「忘记」和「决策差」两类失败干净地拆开。实测结果对所有前沿 MLLM 都不算好看:Gemini-3.1-Pro 在 3D Maze 13×13 上拿到 50% SR, GPT-5.4 / Seed-2.0-Lite / Kimi-K2.5 仅有 10–20%,Qwen3.5-397B 直接归零;Matching Pairs 上 Qwen3.5-397B 从 4×4 的 90.6% 掉到 12×12 的 0.7%。Memory Gap 分析进一步显示,绝大多数残余错误来自「忘记早期观测」而不是「决策本身差」。论文也给出一个好消息:在 RNG-Bench 上对 Qwen3.5-9B 做高质量轨迹 SFT,既能提升该基准成绩,也能迁移到其他既有基准且不损伤通用多模态能力。对做 agent / 多模态 RL 的人来说,RNG-Bench 最大的价值是把「视觉记忆」从 LLM 评测中的隐性瓶颈变成了可观测、可拆解的维度。后续要在长程具身、网页代理里比拼视觉记忆的论文,恐怕都绕不开它。