Ropedia 把 VLM 当规划器:S-Agent 用三级空间工具拼出 8B 空间智能体

Ropedia(南洋理工)+ 字节 + 清华 + NWPU 团队把空间推理拆成「取证据」问题。S-Agent 让 VLM 只负责规划、三级空间工具负责取数,配合 Scene/Agent 双记忆让 8B 模型跨视图累积几何证据;MMSI-Bench 零样本 46.4% 反超 Gemini 3 Pro(45.2%)与 GPT-5.4(41.9%),相机运动维度暴涨 +31.1 分;再用 29.2 万条 S-300K 轨迹蒸馏回 Qwen3-VL-8B 拿到 S-Agent-8B,MMSI/ViewSpatial 双双接近 GPT-5.4,代码与轨迹数据均已开源。