4月21日,OpenAI 正式发布 GPT Image 2(ChatGPT Images 2.0),这是 DALL-E 3 的继任者,也是业界首款真正将 O 系列推理能力融入图像生成的模型。与传统扩散模型不同,GPT Image 2 在渲染像素之前,会先研究提示中的实体关系、规划图像布局、推理细节约束,然后才输出——这意味着它真正先思考再作画。 核心技术突破体现在三个方面。第一,Agentic 架构:模型不再遵循提示→直接渲染的直线路径,而是加入了研究、规划、验证四阶段流程,显著提升了杂志排版、多格漫画、复杂信息图等场景的一次成功率。第二,多语言文字渲染:支持拉丁、日韩 CJK、印地语、孟加拉语等,字符级准确率达 99%,解决了图像模型长期难以准确渲染文字的顽疾。第三,原生 2K(2048 像素)分辨率输出,满足商业印刷级别需求。 benchmark 方面,GPT Image 2 以 +242 分优势登顶 Image Arena 排行榜。背后由 GPT-5.4 主干网络驱动。API 定价:图像输入 tokens 8美元/百万(缓存命中仅2美元),输出 tokens 30美元/百万。ChatGPT 和 Codex 用户4月22日起全面开放,开发者 API 预计5月上线。 GPT Image 2 的意义不仅是又一款高质量图像模型,更重要的是它重新定义了多模态生成的竞争逻辑。当业界还在优化扩散模型的步数与调度时,OpenAI 已将竞争焦点从生成质量转向生成可靠性——让复杂 prompt 不再翻车,才是下一代创作工具的核心壁垒。这一路线一旦被验证跟进,多模态模型的 Agentic 化将成为下一阶段的主战场。