字节跳动 Bernini 开源：用 MLLM 当"语义规划师"，拆开视频生成的"思考"与"渲染"

字节跳动 Bernini 团队在 arXiv 发布《Bernini: Latent Semantic Planning for Video Diffusion》，提出把 MLLM 与扩散模型在视频生成中显式分工的统一框架：MLLM 负责"语义规划"，扩散模型负责"像素渲染"。 Bernini 把"语义表示"显式定义在 ViT 嵌入空间，规划器输出的语义向量可被 DiT 渲染器直接作为条件输入，规避文本瓶颈。两模块可独立训练再轻量协同，兼顾 MLLM 理解力与 DiT 像素质量。配合 Segment-Aware 3D RoPE 与规划器内 chain-of-thought，Bernini 在多个视频生成与编辑 benchmark 取得 SOTA，Hugging Face 已开源 Bernini-R（Apache 2.0）。这是为下一代视频生成系统定义"操作系统级"接口——MLLM 决定"做什么、为何做"，DiT 决定"如何画"。Sora、可灵、Wan 把参数堆到百亿量级时，行业真正欠缺的或许不是更大的渲染器，而是一条更清晰的"语义 ↔ 像素"对接通道。Bernini 正在填补它。