Orca：把"世界状态"焊进潜空间——BAAI 推出通用世界基础模型新范式

## 核心思路 BAAI Orca 团队近日在 arXiv（2606.30534，v2 2026-06-30）发布 **Orca**，一个面向 AGI 的**世界基础模型**。它抛弃"下一个 token / frame / action"这类单一目标，转而提出 **Next-State-Prediction（下一状态预测）**建模：把视觉、文本、音频、动作乃至力/光等信号统一映射为潜状态 z，再预测状态转移 Δ。 ## 训练范式 Orca 用两条学习路径互补：**无意识学习**从 12.5 万小时连续视频中"压"出密集自然状态转移（类似婴儿观察落叶、狗跑过的日常感知）；**有意识学习**用 1.6 亿条事件标注 + 1150 万条 VQA，把稀疏但具因果意义的状态变化（"发生了什么/为什么/会怎样"）建进潜空间。Backbone 训练时**冻结**，只训轻量级模态解码器——文本、图像、动作是同一潜状态的不同"读出口"。 ## 三个读出口的实测 - **语言读出（4B VLM）**：综合 51.8，超过 Qwen3.5（46.7）、Gemma 4（40.8），**State Transition 能力 +12.27%** - **视觉读出（PRICE-V0.1 物理预测）**：4+2B 配置平均 59.8，std 仅 10.9，逼近 FLUX.2-klein（56.1）但稳定性显著更好 - **动作读出（双臂轮式机器人 OOD）**：综合 32.4，超过 V-JEPA 2.1（17.0）、π₀.₅（29.4），**Drawdown Recovery Ratio 30.3**——出错后能回弹的能力领先明显 ## 看法 Orca 真正有意义的不是"又一个大模型"，而是把**理解—预测—行动**统一到同一份世界潜状态上。这意味着评测可以拆出"状态转移"这一新维度；多模态训练配方（125K 小时视频 + 1.6 亿事件）给了具身智能一份公开参考；而动作读出在 Environment OOD（桌布/背景变化）下仍领先，说明 Orca 学到的是"变化规律"而非"训练集场景"。限制也明确：动作读出只在 GalBot 单一机器人上验证；PRICE 上 std 仍有 10.9；项目目前只发了论文和项目页，未开源权重。**但作为"世界模型 = 状态转移模型"这一命题的首次端到端验证，Orca 给出的 4B 三件套 SOTA，是 2026 下半年值得所有 VLA/世界模型团队对齐的基线。**