Ideogram 4.0 开源：9.3B 单流 DiT + Qwen3-VL 文本编码器，把排版与文字渲染做到开源第一

Ideogram 4.0 是该公司 6 月 3 日发布的首款开源权重模型：9.3B 参数、34 层 single-stream Diffusion Transformer，从零训练，原生 2K 输出（最高 2048 像素，宽高比可达 6:1），同步提供 fp8 与 nf4 两种量化版本，nf4 版可单卡 24GB GPU 部署。推理阶段还提供 V4_QUALITY_48（45 步 + 3 步精修）、V4_DEFAULT_20、V4_TURBO_12 三档采样预设，可在质量和速度之间灵活切换。最大差异化在「JSON 结构化提示 + 强排版控制」。训练语料全部用 JSON 描述，每个元素可带颜色面板（每图 16 个 hex 色、每元素 5 色）、边界框坐标（[y_min, x_min, y_max, x_max]，归一化到 0–1000）与字面文本字段，可同时控制多行、多字体 in-image 文字。这是它在 X-Omni-OCR 文字渲染榜单上大幅领先同类开源模型（20B Qwen-Image、32B FLUX.2 dev、80B HunyuanImage 3.0 MoE）的关键。 ContraLabs 盲评中，10 位职业设计师对四款模型两两对比，Ideogram 4.0 以 47.9% 偏好率排名第一，显著高于 Nano Banana 2（30.0%）、FLUX.2 max（15.5%）和 Grok Imagine 1.0（15.0%）；「是否愿意用于真实客户作品」的 5 分制评分达 3.55，领先 Nano Banana 2 近 0.7 分。架构上，单流 DiT 已是 Z-Image、Black Forest Labs 等的共识，但 Ideogram 用 Qwen3-VL 8B 作文本编码器是少见做法——抽取 13 层中间 hidden state 与图像 token 拼接后送入同一 34 层 Transformer，让 prompt-alignment（Prism）、空间推理（SpatialGenEval）、布局控制（7Bench）三方面同时补齐短板。权重仅限非商业用途，商业落地需走官方 API，部署侧还要求接入 Hive 做内容审核。