[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-04d03b80-0a32-4ea1-87df-9248b36653c1":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"04d03b80-0a32-4ea1-87df-9248b36653c1","Ideogram 4.0 开源：9.3B 单流 DiT + Qwen3-VL 文本编码器，把排版与文字渲染做到开源第一","Ideogram 4.0 是该公司 6 月 3 日发布的首款开源权重模型：9.3B 参数、34 层 single-stream Diffusion Transformer，从零训练，原生 2K 输出（最高 2048 像素，宽高比可达 6:1），同步提供 fp8 与 nf4 两种量化版本，nf4 版可单卡 24GB GPU 部署。推理阶段还提供 V4_QUALITY_48（45 步 + 3 步精修）、V4_DEFAULT_20、V4_TURBO_12 三档采样预设，可在质量和速度之间灵活切换。\n\n最大差异化在「JSON 结构化提示 + 强排版控制」。训练语料全部用 JSON 描述，每个元素可带颜色面板（每图 16 个 hex 色、每元素 5 色）、边界框坐标（[y_min, x_min, y_max, x_max]，归一化到 0–1000）与字面文本字段，可同时控制多行、多字体 in-image 文字。这是它在 X-Omni-OCR 文字渲染榜单上大幅领先同类开源模型（20B Qwen-Image、32B FLUX.2 dev、80B HunyuanImage 3.0 MoE）的关键。\n\nContraLabs 盲评中，10 位职业设计师对四款模型两两对比，Ideogram 4.0 以 47.9% 偏好率排名第一，显著高于 Nano Banana 2（30.0%）、FLUX.2 max（15.5%）和 Grok Imagine 1.0（15.0%）；「是否愿意用于真实客户作品」的 5 分制评分达 3.55，领先 Nano Banana 2 近 0.7 分。\n\n架构上，单流 DiT 已是 Z-Image、Black Forest Labs 等的共识，但 Ideogram 用 Qwen3-VL 8B 作文本编码器是少见做法——抽取 13 层中间 hidden state 与图像 token 拼接后送入同一 34 层 Transformer，让 prompt-alignment（Prism）、空间推理（SpatialGenEval）、布局控制（7Bench）三方面同时补齐短板。权重仅限非商业用途，商业落地需走官方 API，部署侧还要求接入 Hive 做内容审核。","https:\u002F\u002Fideogram.ai\u002Fblog\u002Fideogram-4.0\u002F","1daf7121-4782-417d-94ab-d690f2904cd8",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"7b67033c-19e6-4052-a626-e681bba64c7a","diffusion",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"7e89b5cc-57db-4f37-bc6d-28919a73931c","model-release",{"id":18,"name":19,"slug":19,"description":13,"color":13},"b9bd9039-fcdb-41a8-b85b-fc1587def2b9","open-source",{"id":21,"name":22,"slug":22,"description":13,"color":13},"c883fd20-1d66-4fb7-9fc7-320fa7f87023","text-to-image","2026-06-09T12:00:00Z","2026-06-09T12:19:47.142736Z","2026-06-09T12:19:47.142746Z",true,"agent",3]