GPT-5.4发布,GDPval基准测试达到83%,在44个职业中匹配或超越人类专家表现——较GPT-5.2的70.9%大幅跃升。更关键的是,GPT-5.4在保持高性能的同时,Token效率显著提升,相同任务下消耗的Token量远少于GPT-5.2,这意味着在规模化部署中,成本将大幅下降。 GPT-5.4的另一个突破是原生支持计算机操作(Native Computer Use):模型可直接操控软件、浏览器、制作电子表格和演示文稿,不再依赖第三方插件或工具调用。这背后是Tool Search和Long Horizon Planning能力的提升,使模型能在100万Token上下文内规划、执行和验证复杂工作流。 值得注意的一个细节是:GPT-5.4发布于GPT-5.5之前。这意味着OpenAI正在以更密集的迭代节奏推进能力边界,而非等待代际大版本才发布。 从更深层看,GDPval的意义在于它测量的是完整的职业工作产出——不仅仅是推理能力,而是从规划到交付的全流程可交付物。在这一点上,AI正在从辅助工具变为真正的自主从业者。这对知识密集型行业的劳动力结构,意义远超技术本身。