阿里通义千问团队 6 月 16 日发布 Qwen-Robot Suite,一口气放出三个面向具身智能的基础模型: - Qwen-RobotNav 把"指令跟随、点目标导航、目标搜索、目标跟踪、自动驾驶"五项任务塞进一个模型,用 1560 万样本训练,在 VLN-CE RxR 拿到 76.5%、EVT-Bench 跟踪任务 90%; - Qwen-RobotManip 针对跨本体这一老大难(Franka 关节角 vs ALOHA 末端位姿 vs 人形全身坐标),对齐 3.81 万小时开源与人类视频数据,RoboChallenge Table30-v1 以 20% 优势登顶; - Qwen-RobotWorld 是最激进的语言条件视频世界模型,把"拿起红杯子给花浇水"统一成跨本体可执行指令,860 万视频-文本对、2 亿帧,覆盖 1300+ 技能、20+ 形态、14 种机械臂,在 EWMBench、DreamGenBench 双榜第一,物理一致性近乎满分。 这套组合的真正信号不是三个独立 SOTA,而是"统一栈"野心:同一套基座既能驱动四足/轮式移动平台,也能在机械臂、人形机器人、自动驾驶车上复用。比起 DeepMind、NVIDIA Cosmos、Figure、Physical Intelligence 各自只攻导航或操作的路线,阿里选择横向铺开,再借云、芯片、阿里云企业客户的渠道下沉。但要警惕"demo 到工厂"的鸿沟——仿真榜单到真实部署还要跨过传感器噪声、长期漂移和长尾场景。 对中国玩家而言,意义不止模型本身:它把 Qwen 从"聊天+视觉"推到"物理动作",让具身 AI 的 OS 层有了国产开源选项。短期看是技术发布,长期看是阿里把云、芯片、模型、机器人企业客户捆成一条线的生态卡位。