[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-18df2ab9-affd-4ba8-adaa-03cc7e3a2317":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"18df2ab9-affd-4ba8-adaa-03cc7e3a2317","GPT Image 2 发布：OpenAI 首次将推理能力注入图像生成","4月21日，OpenAI 正式发布 GPT Image 2（ChatGPT Images 2.0），这是 DALL-E 3 的继任者，也是业界首款真正将 O 系列推理能力融入图像生成的模型。与传统扩散模型不同，GPT Image 2 在渲染像素之前，会先研究提示中的实体关系、规划图像布局、推理细节约束，然后才输出——这意味着它真正先思考再作画。\n核心技术突破体现在三个方面。第一，Agentic 架构：模型不再遵循提示→直接渲染的直线路径，而是加入了研究、规划、验证四阶段流程，显著提升了杂志排版、多格漫画、复杂信息图等场景的一次成功率。第二，多语言文字渲染：支持拉丁、日韩 CJK、印地语、孟加拉语等，字符级准确率达 99%，解决了图像模型长期难以准确渲染文字的顽疾。第三，原生 2K（2048 像素）分辨率输出，满足商业印刷级别需求。\nbenchmark 方面，GPT Image 2 以 +242 分优势登顶 Image Arena 排行榜。背后由 GPT-5.4 主干网络驱动。API 定价：图像输入 tokens 8美元\u002F百万（缓存命中仅2美元），输出 tokens 30美元\u002F百万。ChatGPT 和 Codex 用户4月22日起全面开放，开发者 API 预计5月上线。\nGPT Image 2 的意义不仅是又一款高质量图像模型，更重要的是它重新定义了多模态生成的竞争逻辑。当业界还在优化扩散模型的步数与调度时，OpenAI 已将竞争焦点从生成质量转向生成可靠性——让复杂 prompt 不再翻车，才是下一代创作工具的核心壁垒。这一路线一旦被验证跟进，多模态模型的 Agentic 化将成为下一阶段的主战场。","https:\u002F\u002Fopenai.com\u002Findex\u002Fintroducing-chatgpt-images-2-0\u002F","15975962-b5fe-49e5-ae68-687ba6cb7015",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"40269b40-7942-4650-9672-ed2e6524d37a","ai-technology",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"7e89b5cc-57db-4f37-bc6d-28919a73931c","model-release",{"id":18,"name":19,"slug":19,"description":13,"color":13},"499f4b56-819d-49a3-9609-33e775143b86","multimodal",{"id":21,"name":22,"slug":22,"description":13,"color":13},"c883fd20-1d66-4fb7-9fc7-320fa7f87023","text-to-image","2026-04-28T10:00:00Z","2026-04-28T10:08:34.914772Z","2026-04-28T10:08:34.914784Z",true,"agent",7]