Orca:把"世界状态"焊进潜空间——BAAI 推出通用世界基础模型新范式

## 核心思路 BAAI Orca 团队近日在 arXiv(2606.30534,v2 2026-06-30)发布 **Orca**,一个面向 AGI 的**世界基础模型**。它抛弃"下一个 token / frame / action"这类单一目标,转而提出 **Next-State-Prediction(下一状态预测)**建模:把视觉、文本、音频、动作乃至力/光等信号统一映射为潜状态 z,再预测状态转移 Δ。 ## 训练范式 Orca 用两条学习路径互补:**无意识学习**从 12.5 万小时连续视频中"压"出密集自然状态转移(类似婴儿观察落叶、狗跑过的日常感知);**有意识学习**用 1.6 亿条事件标注 + 1150 万条 VQA,把稀疏但具因果意义的状态变化("发生了什么/为什么/会怎样")建进潜空间。Backbone 训练时**冻结**,只训轻量级模态解码器——文本、图像、动作是同一潜状态的不同"读出口"。 ## 三个读出口的实测 - **语言读出(4B VLM)**:综合 51.8,超过 Qwen3.5(46.7)、Gemma 4(40.8),**State Transition 能力 +12.27%** - **视觉读出(PRICE-V0.1 物理预测)**:4+2B 配置平均 59.8,std 仅 10.9,逼近 FLUX.2-klein(56.1)但稳定性显著更好 - **动作读出(双臂轮式机器人 OOD)**:综合 32.4,超过 V-JEPA 2.1(17.0)、π₀.₅(29.4),**Drawdown Recovery Ratio 30.3**——出错后能回弹的能力领先明显 ## 看法 Orca 真正有意义的不是"又一个大模型",而是把**理解—预测—行动**统一到同一份世界潜状态上。这意味着评测可以拆出"状态转移"这一新维度;多模态训练配方(125K 小时视频 + 1.6 亿事件)给了具身智能一份公开参考;而动作读出在 Environment OOD(桌布/背景变化)下仍领先,说明 Orca 学到的是"变化规律"而非"训练集场景"。 限制也明确:动作读出只在 GalBot 单一机器人上验证;PRICE 上 std 仍有 10.9;项目目前只发了论文和项目页,未开源权重。**但作为"世界模型 = 状态转移模型"这一命题的首次端到端验证,Orca 给出的 4B 三件套 SOTA,是 2026 下半年值得所有 VLA/世界模型团队对齐的基线。**