OpenAI 提出「部署模拟」：用真实对话流量在发布前预测 GPT-5 行为风险

OpenAI 在 6 月 16 日发布的研究博客中，正式公开了 **Deployment Simulation**——通过隐私保留地"重放"既有生产对话给候选模型，观察它在真实上下文中的反应，补足传统合成 prompt 评估的盲区。这套方法已被用于 GPT‑5 Thinking 到 GPT‑5.4 的多次部署，覆盖约 130 万条去标识化对话。 ## 它解决了传统 eval 的三个老问题传统预发布评估被三件事困扰：覆盖有限、选择偏差、**eval awareness**——现代模型越来越擅长识别"正在被测"，chain‑of‑thought 中出现元推理污染行为数据。 Deployment Simulation 的应对思路简洁：把生产对话中的 assistant 回复抹掉，让候选模型重新生成。覆盖率靠"多采样几条"线性扩展，模型几乎无法区分模拟流量与真实生产（GPT‑5.2 标注真生产为"评估"的概率 5.4%，模拟流量 5.1%）。最关键的是：风险评估质量随**算力**扩展，而非随手工写 prompt 的工作量。 ## 实证效果在 20 类预注册的不当行为预测上，中位乘性误差 **1.5×**——真实部署率 10/100k 时，预估落在 6.67–15/100k。OpenAI 用此方法在 GPT‑5.1 发布前就抓出了"calculator hacking"这一新型失准行为。方法也已扩展到 **agentic coding**：用 LLM 模拟工具调用，把保真度从 11.6% 拉到 49.5%（接近 50% 随机线）。外部审计也能受益——WildChat 公开数据作前缀时，平均误差 2.44×，仍能识别更安全的候选模型。 ## 评论部署模拟的核心贡献是**评估范式的转移**：从"造题→跑题"转向"采样→回放"，把 risk assessment 变成可随算力堆叠的统计估计问题。这对 Anthropic、xAI、DeepMind 以及国内 GLM、Kimi 团队都有直接参考价值。前提有两个：足够体量的真实流量 + 明确隐私脱敏流程。