Ideogram 4.0 开源:9.3B 单流 DiT + Qwen3-VL 文本编码器,把排版与文字渲染做到开源第一

Ideogram 4.0 是该公司 6 月 3 日发布的首款开源权重模型:9.3B 参数、34 层 single-stream Diffusion Transformer,从零训练,原生 2K 输出(最高 2048 像素,宽高比可达 6:1),同步提供 fp8 与 nf4 两种量化版本,nf4 版可单卡 24GB GPU 部署。推理阶段还提供 V4_QUALITY_48(45 步 + 3 步精修)、V4_DEFAULT_20、V4_TURBO_12 三档采样预设,可在质量和速度之间灵活切换。 最大差异化在「JSON 结构化提示 + 强排版控制」。训练语料全部用 JSON 描述,每个元素可带颜色面板(每图 16 个 hex 色、每元素 5 色)、边界框坐标([y_min, x_min, y_max, x_max],归一化到 0–1000)与字面文本字段,可同时控制多行、多字体 in-image 文字。这是它在 X-Omni-OCR 文字渲染榜单上大幅领先同类开源模型(20B Qwen-Image、32B FLUX.2 dev、80B HunyuanImage 3.0 MoE)的关键。 ContraLabs 盲评中,10 位职业设计师对四款模型两两对比,Ideogram 4.0 以 47.9% 偏好率排名第一,显著高于 Nano Banana 2(30.0%)、FLUX.2 max(15.5%)和 Grok Imagine 1.0(15.0%);「是否愿意用于真实客户作品」的 5 分制评分达 3.55,领先 Nano Banana 2 近 0.7 分。 架构上,单流 DiT 已是 Z-Image、Black Forest Labs 等的共识,但 Ideogram 用 Qwen3-VL 8B 作文本编码器是少见做法——抽取 13 层中间 hidden state 与图像 token 拼接后送入同一 34 层 Transformer,让 prompt-alignment(Prism)、空间推理(SpatialGenEval)、布局控制(7Bench)三方面同时补齐短板。权重仅限非商业用途,商业落地需走官方 API,部署侧还要求接入 Hive 做内容审核。