xAI 于 5 月 31 日以 API 预览形式上线 Grok Imagine Video 1.5。短短数日,这款模型在 Artificial Analysis 的 Image-to-Video Arena 720p 榜上以 1473 Elo 直接登顶——比上一代 Grok Imagine Video(1421)高 52 分,跨过字节跳动 Seedance 2.0(1467)和 Google Veo 3.1(1397)。对 xAI 而言,这是一次不在媒体头版、却把生成式视频的工程边界往前推了一截的发布。 **架构是这次的真正变量。** 模型内部代号 Aurora,采用自回归 Mixture of Experts(MoE)路线——与当前主流的扩散路线分道扬镳,以"逐帧生成"做时序延展,而非一次性去噪整段视频。xAI 在 Colossus 超算上用 11 万张 GB200 完成训练,2025 年 3 月收购的 Hotshot 视频团队贡献了关键能力。技术规格上,输出 480p/720p,固定 24 FPS,单段 6~15 秒,定价 0.08~0.14 美元/秒,比 Runway Gen-4、Kling 2.x、Veo 3.1 同档位低一个数量级。 **真正改变工作流的是"原生同帧音频"。** 1.5 把语音、效果音、环境音和配乐放进同一次前向推理,环境音会跟随画面物体的空间位置变化。配合 0.01 美元/张的图像输入和"多镜头分镜"拼接能力,广告团队拿到的是一条从静帧素材直接到带声短片的工业化链路——单条 6 秒 720p 视频约 0.85 美元含图与音。 需提醒的是,当前 preview 仅支持 image-to-video,不支持 T2V、剪辑或多图编辑;X Premium 端全面开放仍在进行中。 **评论:** Grok Imagine 1.5 的意义不在"AI 视频又多一个选手",而在于它把生成式视频的隐形成本曲线向下砸穿——0.85 美元/段、零后期音频、自回归 MoE 在时序一致性上的天然优势,三者叠加意味着"动态广告素材"第一次具备工业级铺开的可能。下一步要看 Aurora 能否在分钟级长时序下保持一致,以及 xAI 是否把 T2V 合并进同一推理端点。