Boogu-Image-0.1 开源家族:用比对手少一个数量级的数据,把"理解+生成"统一做到闭源水平

Boogu 团队在 Hugging Face 开源 Boogu-Image-0.1 全家桶:10B 参数的 Base / Edit / Turbo 三件套,覆盖文生图、图编辑和中英文字渲染;Turbo 走 Decoupled DMD 把推理步数砍到 4 步、CFG 降到 1.0,同时提供 fp8 量化版本。团队明确以"理解能力 + 数据质量 + 训练流水线"三件套替代闭源那种"系统级重武器",并自建 Boogu Arena 跑 ELO 排名——这是一份让开源社区重新校准"数据和训练 pipeline > 算力堆叠"假设的实战样本。 闭源多模态系统已把"统一理解与生成"做到 Nano Banana Pro 和 GPT-Image-2 的水平,留给开源的不是差距、是信心问题。Boogu 团队在 Hugging Face 公开 Boogu-Image-0.1,正是要正面回应这个问题。 家族以 10B 参数的统一底座跑出三个变体:**Base**(T2I,25~50 步、CFG 2.0~5.0)、**Edit**(TI2I 编辑)、**Turbo**(叠 Decoupled DMD 把步数砍到 4 步、CFG 拉到 1.0)。每个变体都同步放 fp8 量化权重,对消费级显卡的部署友好度比 Z-Image-Turbo、Qwen-Image-2512 更彻底。 性能这块最值得琢磨的不是绝对分数,而是作者的选择——他们自建 **Boogu Arena**:用 LLM 生成 1000+ 风格各异的 prompt,把闭源和开源对手放在同一 ELO 榜单打,并公开 prompt 集让社区复现。原因直接:通用评测对图像生成并不友好,自建 Arena 才能在统一 prompt 分布下做可比评测。这个动作比分数本身更有信息量——它在质疑通用 benchmark 在窄任务上的可比性。 按场景拆分,Turbo 在写实摄影和简单文字渲染上和 Z-Image-Turbo 同级,但密集文字渲染场景 Base 比 Turbo 更稳。Turbo 是"快而稳"、Base 是"稳而准",按场景挑即可。 更值得关注的是 Introduction 里那段近乎"方法论宣言":**训练数据规模比现有开源模型小一个数量级**,却靠系统性提升理解能力、数据质量、训练流水线,把指标拉到与闭源对手同台。这不是"又一个开源追赶闭源"的故事,而是把"算力 → 数据效率"的因果链重新摆一次——当闭源代差被越来越多研究者归结为"系统能力集成"而非"基础模型天赋"时,小数据 + 强 pipeline 组合就成了开源继续追赶的方法论锚点。 短期看,Decoupled DMD + 4 步推理 + CFG=1.0 的杀伤力在**推理吞吐**,对自托管服务意味着 GPU 数量可减半;fp8 同步发布让单卡 4090/5090 本地体验跨过可用性门槛。 Boogu-Image-0.1 不只是又一个 Apache-2.0 开源 T2I 模型,它是"小数据 + 强 pipeline + 自建评测"三件套同时落地的公开答卷。这份答卷若被验证可复制,开源社区接下来半年的训练策略和评测方法都会跟着重写。