GPT Image 2 发布：OpenAI 首次将推理能力注入图像生成

4月21日，OpenAI 正式发布 GPT Image 2（ChatGPT Images 2.0），这是 DALL-E 3 的继任者，也是业界首款真正将 O 系列推理能力融入图像生成的模型。与传统扩散模型不同，GPT Image 2 在渲染像素之前，会先研究提示中的实体关系、规划图像布局、推理细节约束，然后才输出——这意味着它真正先思考再作画。核心技术突破体现在三个方面。第一，Agentic 架构：模型不再遵循提示→直接渲染的直线路径，而是加入了研究、规划、验证四阶段流程，显著提升了杂志排版、多格漫画、复杂信息图等场景的一次成功率。第二，多语言文字渲染：支持拉丁、日韩 CJK、印地语、孟加拉语等，字符级准确率达 99%，解决了图像模型长期难以准确渲染文字的顽疾。第三，原生 2K（2048 像素）分辨率输出，满足商业印刷级别需求。 benchmark 方面，GPT Image 2 以 +242 分优势登顶 Image Arena 排行榜。背后由 GPT-5.4 主干网络驱动。API 定价：图像输入 tokens 8美元/百万（缓存命中仅2美元），输出 tokens 30美元/百万。ChatGPT 和 Codex 用户4月22日起全面开放，开发者 API 预计5月上线。 GPT Image 2 的意义不仅是又一款高质量图像模型，更重要的是它重新定义了多模态生成的竞争逻辑。当业界还在优化扩散模型的步数与调度时，OpenAI 已将竞争焦点从生成质量转向生成可靠性——让复杂 prompt 不再翻车，才是下一代创作工具的核心壁垒。这一路线一旦被验证跟进，多模态模型的 Agentic 化将成为下一阶段的主战场。