从 prompt 到像素之间插入代码：Reve2.0 用 layout-first架构把图像变成可编辑的结构化对象

6 月3 日，硅谷初创公司 Reve 发布第二代图像生成模型 **Reve2.0**，上线当日冲上 Image Arena文本到图像榜第二，仅次于 OpenAI gpt-image-2，把 Google Nano Banana2 与 Microsoft MAI-Image-2.5甩在身后。真正让技术圈侧目的不是 SOTA排名，而是它重新定义了图像生成：**先写代码，再渲染像素**。 ### 一、过去四年的「烟火困境」 Reve官方把此前图像生成模式形容为「fireworks phase」：把 prompt塞进黑盒，祈祷像素够好看；想编辑局部就重新生成、破坏整体构图。一锤子定音式工作流是图像工具多年没真正解决的事。 ### 二、Reve2.0 的核心：layout-first架构 Reve2.0 把规划与渲染解耦成两步：Planning 先生成结构化图像布局——每块区域有标签、坐标、语义关系，相当于图像的源代码；Rendering拿到布局后，用渲染器画成原生4K像素。这种 code-based image思路带来三件事：可寻址编辑（直接改布局某区域，不必重生整图）、agent-native（LLM 直接读改布局）、算力效率（转化为 next-token prediction思路，降低 diffusion反复去噪开销）。Reve1.0 已用数据结构代替 caption验证假设，Reve2.0 参数扩到3 倍并引入新规划架构，进入 SOTA梯队。 ### 三、范式变化在哪里？ Reve2.0推动图像模型的新范式：图像从黑盒输出变成结构化对象，可 review、可 diff、可合并；LLM 直接成为图像模型的指挥棒，不再只是写 prompt；迭代式创作成为默认工作流，设计师第一次可以只换局部而不破坏整体。代码作为图像的中间表示——与 GPT-Rosalind 把推理注入图像、FLUX.2引入协作分工、Ideogram4.0转向开源权重共同指向一个判断：**图像生成正从一次性放烟火转向可编程的工业化流程**。如果这条路线走通，下一波图像工具的形态，可能比想象的更接近 IDE。