OpenAI 6 月 26 日启动 GPT-5.6 系列限量预览,把一个模型打天下换成 Sol/Terra/Luna 三档产品线。真正的工程杠杆藏在数字里:Terra 性能对标 GPT-5.5 的同时单位价格压到一半,Luna 把最低成本+强能力推到生产级。能力侧 Sol 在 Terminal-Bench 2.1 刷新 SOTA;GeneBench v1 用更少 token 拿到比 GPT-5.5 更强的结果;ExploitBench² 上以约 1/3 输出 token 追平 Mythos Preview——同等能力天花板、更省的算力账单,就是三档之间划线的依据。 推理侧两个新动作值得记:一是新增 max reasoning effort,让 Sol 拿到更深的思考时间;二是首次出现的 ultra mode,用 subagent 把单一 agent 拆成多个并行子代理去啃长链任务,这是从单兵+推理向小队+调度的范式转移,未来 agent 编排能力会和模型本身一样成为新的护城河。 安全侧 OpenAI 用加厚但不闭源作答:模型拒答训练叠加实时分类器、账户级审查与差异化访问,背后是 70 万 A100-等效 GPU 小时的自动化红队压力测试。能力对标 Mythos、token 压到 1/3、产品拆三档梯度,GPT-5.6 不只是又一代升级,而是一份在能力-成本-安全三角中如何做工程取舍的公开答卷。