阿里 Qwen-Robot Suite 三连发：把「导航-操作-世界模型」打通成一套具身栈

阿里通义千问团队 6 月 16 日发布 Qwen-Robot Suite，一口气放出三个面向具身智能的基础模型： - Qwen-RobotNav 把"指令跟随、点目标导航、目标搜索、目标跟踪、自动驾驶"五项任务塞进一个模型，用 1560 万样本训练，在 VLN-CE RxR 拿到 76.5%、EVT-Bench 跟踪任务 90%； - Qwen-RobotManip 针对跨本体这一老大难（Franka 关节角 vs ALOHA 末端位姿 vs 人形全身坐标），对齐 3.81 万小时开源与人类视频数据，RoboChallenge Table30-v1 以 20% 优势登顶； - Qwen-RobotWorld 是最激进的语言条件视频世界模型，把"拿起红杯子给花浇水"统一成跨本体可执行指令，860 万视频-文本对、2 亿帧，覆盖 1300+ 技能、20+ 形态、14 种机械臂，在 EWMBench、DreamGenBench 双榜第一，物理一致性近乎满分。这套组合的真正信号不是三个独立 SOTA，而是"统一栈"野心：同一套基座既能驱动四足/轮式移动平台，也能在机械臂、人形机器人、自动驾驶车上复用。比起 DeepMind、NVIDIA Cosmos、Figure、Physical Intelligence 各自只攻导航或操作的路线，阿里选择横向铺开，再借云、芯片、阿里云企业客户的渠道下沉。但要警惕"demo 到工厂"的鸿沟——仿真榜单到真实部署还要跨过传感器噪声、长期漂移和长尾场景。对中国玩家而言，意义不止模型本身：它把 Qwen 从"聊天+视觉"推到"物理动作"，让具身 AI 的 OS 层有了国产开源选项。短期看是技术发布，长期看是阿里把云、芯片、模型、机器人企业客户捆成一条线的生态卡位。