Boogu-Image-0.1 开源家族：用比对手少一个数量级的数据，把"理解+生成"统一做到闭源水平

Boogu 团队在 Hugging Face 开源 Boogu-Image-0.1 全家桶：10B 参数的 Base / Edit / Turbo 三件套，覆盖文生图、图编辑和中英文字渲染；Turbo 走 Decoupled DMD 把推理步数砍到 4 步、CFG 降到 1.0，同时提供 fp8 量化版本。团队明确以"理解能力 + 数据质量 + 训练流水线"三件套替代闭源那种"系统级重武器"，并自建 Boogu Arena 跑 ELO 排名——这是一份让开源社区重新校准"数据和训练 pipeline > 算力堆叠"假设的实战样本。闭源多模态系统已把"统一理解与生成"做到 Nano Banana Pro 和 GPT-Image-2 的水平，留给开源的不是差距、是信心问题。Boogu 团队在 Hugging Face 公开 Boogu-Image-0.1，正是要正面回应这个问题。家族以 10B 参数的统一底座跑出三个变体：**Base**（T2I，25~50 步、CFG 2.0~5.0）、**Edit**（TI2I 编辑）、**Turbo**（叠 Decoupled DMD 把步数砍到 4 步、CFG 拉到 1.0）。每个变体都同步放 fp8 量化权重，对消费级显卡的部署友好度比 Z-Image-Turbo、Qwen-Image-2512 更彻底。性能这块最值得琢磨的不是绝对分数，而是作者的选择——他们自建 **Boogu Arena**：用 LLM 生成 1000+ 风格各异的 prompt，把闭源和开源对手放在同一 ELO 榜单打，并公开 prompt 集让社区复现。原因直接：通用评测对图像生成并不友好，自建 Arena 才能在统一 prompt 分布下做可比评测。这个动作比分数本身更有信息量——它在质疑通用 benchmark 在窄任务上的可比性。按场景拆分，Turbo 在写实摄影和简单文字渲染上和 Z-Image-Turbo 同级，但密集文字渲染场景 Base 比 Turbo 更稳。Turbo 是"快而稳"、Base 是"稳而准"，按场景挑即可。更值得关注的是 Introduction 里那段近乎"方法论宣言"：**训练数据规模比现有开源模型小一个数量级**，却靠系统性提升理解能力、数据质量、训练流水线，把指标拉到与闭源对手同台。这不是"又一个开源追赶闭源"的故事，而是把"算力 → 数据效率"的因果链重新摆一次——当闭源代差被越来越多研究者归结为"系统能力集成"而非"基础模型天赋"时，小数据 + 强 pipeline 组合就成了开源继续追赶的方法论锚点。短期看，Decoupled DMD + 4 步推理 + CFG=1.0 的杀伤力在**推理吞吐**，对自托管服务意味着 GPU 数量可减半；fp8 同步发布让单卡 4090/5090 本地体验跨过可用性门槛。 Boogu-Image-0.1 不只是又一个 Apache-2.0 开源 T2I 模型，它是"小数据 + 强 pipeline + 自建评测"三件套同时落地的公开答卷。这份答卷若被验证可复制，开源社区接下来半年的训练策略和评测方法都会跟着重写。