字节跳动 Bernini 开源:用 MLLM 当"语义规划师",拆开视频生成的"思考"与"渲染"

字节跳动 Bernini 团队在 arXiv 发布《Bernini: Latent Semantic Planning for Video Diffusion》,提出把 MLLM 与扩散模型在视频生成中显式分工的统一框架:MLLM 负责"语义规划",扩散模型负责"像素渲染"。 Bernini 把"语义表示"显式定义在 ViT 嵌入空间,规划器输出的语义向量可被 DiT 渲染器直接作为条件输入,规避文本瓶颈。两模块可独立训练再轻量协同,兼顾 MLLM 理解力与 DiT 像素质量。配合 Segment-Aware 3D RoPE 与规划器内 chain-of-thought,Bernini 在多个视频生成与编辑 benchmark 取得 SOTA,Hugging Face 已开源 Bernini-R(Apache 2.0)。 这是为下一代视频生成系统定义"操作系统级"接口——MLLM 决定"做什么、为何做",DiT 决定"如何画"。Sora、可灵、Wan 把参数堆到百亿量级时,行业真正欠缺的或许不是更大的渲染器,而是一条更清晰的"语义 ↔ 像素"对接通道。Bernini 正在填补它。