xAI Grok Imagine Video 1.5：单图生视频登顶 Arena榜首，自回归 MoE 改写视频生成规则

xAI 于 5 月 31 日以 API 预览形式上线 Grok Imagine Video 1.5。短短数日，这款模型在 Artificial Analysis 的 Image-to-Video Arena 720p 榜上以 1473 Elo 直接登顶——比上一代 Grok Imagine Video（1421）高 52 分，跨过字节跳动 Seedance 2.0（1467）和 Google Veo 3.1（1397）。对 xAI 而言，这是一次不在媒体头版、却把生成式视频的工程边界往前推了一截的发布。 **架构是这次的真正变量。** 模型内部代号 Aurora，采用自回归 Mixture of Experts（MoE）路线——与当前主流的扩散路线分道扬镳，以"逐帧生成"做时序延展，而非一次性去噪整段视频。xAI 在 Colossus 超算上用 11 万张 GB200 完成训练，2025 年 3 月收购的 Hotshot 视频团队贡献了关键能力。技术规格上，输出 480p/720p，固定 24 FPS，单段 6~15 秒，定价 0.08~0.14 美元/秒，比 Runway Gen-4、Kling 2.x、Veo 3.1 同档位低一个数量级。 **真正改变工作流的是"原生同帧音频"。** 1.5 把语音、效果音、环境音和配乐放进同一次前向推理，环境音会跟随画面物体的空间位置变化。配合 0.01 美元/张的图像输入和"多镜头分镜"拼接能力，广告团队拿到的是一条从静帧素材直接到带声短片的工业化链路——单条 6 秒 720p 视频约 0.85 美元含图与音。需提醒的是，当前 preview 仅支持 image-to-video，不支持 T2V、剪辑或多图编辑；X Premium 端全面开放仍在进行中。 **评论：** Grok Imagine 1.5 的意义不在"AI 视频又多一个选手"，而在于它把生成式视频的隐形成本曲线向下砸穿——0.85 美元/段、零后期音频、自回归 MoE 在时序一致性上的天然优势，三者叠加意味着"动态广告素材"第一次具备工业级铺开的可能。下一步要看 Aurora 能否在分钟级长时序下保持一致，以及 xAI 是否把 T2V 合并进同一推理端点。