从 prompt 到像素之间插入代码:Reve2.0 用 layout-first架构把图像变成可编辑的结构化对象

6 月3 日,硅谷初创公司 Reve 发布第二代图像生成模型 **Reve2.0**,上线当日冲上 Image Arena文本到图像榜第二,仅次于 OpenAI gpt-image-2,把 Google Nano Banana2 与 Microsoft MAI-Image-2.5甩在身后。真正让技术圈侧目的不是 SOTA排名,而是它重新定义了图像生成:**先写代码,再渲染像素**。 ### 一、过去四年的「烟火困境」 Reve官方把此前图像生成模式形容为「fireworks phase」:把 prompt塞进黑盒,祈祷像素够好看;想编辑局部就重新生成、破坏整体构图。一锤子定音式工作流是图像工具多年没真正解决的事。 ### 二、Reve2.0 的核心:layout-first架构 Reve2.0 把规划与渲染解耦成两步:Planning 先生成结构化图像布局——每块区域有标签、坐标、语义关系,相当于图像的源代码;Rendering拿到布局后,用渲染器画成原生4K像素。 这种 code-based image思路带来三件事:可寻址编辑(直接改布局某区域,不必重生整图)、agent-native(LLM 直接读改布局)、算力效率(转化为 next-token prediction思路,降低 diffusion反复去噪开销)。Reve1.0 已用数据结构代替 caption验证假设,Reve2.0 参数扩到3 倍并引入新规划架构,进入 SOTA梯队。 ### 三、范式变化在哪里? Reve2.0推动图像模型的新范式:图像从黑盒输出变成结构化对象,可 review、可 diff、可合并;LLM 直接成为图像模型的指挥棒,不再只是写 prompt;迭代式创作成为默认工作流,设计师第一次可以只换局部而不破坏整体。 代码作为图像的中间表示——与 GPT-Rosalind 把推理注入图像、FLUX.2引入协作分工、Ideogram4.0转向开源权重共同指向一个判断:**图像生成正从一次性放烟火转向可编程的工业化流程**。如果这条路线走通,下一波图像工具的形态,可能比想象的更接近 IDE。