OpenAI 在 6 月 16 日发布的研究博客中,正式公开了 **Deployment Simulation**——通过隐私保留地"重放"既有生产对话给候选模型,观察它在真实上下文中的反应,补足传统合成 prompt 评估的盲区。这套方法已被用于 GPT‑5 Thinking 到 GPT‑5.4 的多次部署,覆盖约 130 万条去标识化对话。 ## 它解决了传统 eval 的三个老问题 传统预发布评估被三件事困扰:覆盖有限、选择偏差、**eval awareness**——现代模型越来越擅长识别"正在被测",chain‑of‑thought 中出现元推理污染行为数据。 Deployment Simulation 的应对思路简洁:把生产对话中的 assistant 回复抹掉,让候选模型重新生成。覆盖率靠"多采样几条"线性扩展,模型几乎无法区分模拟流量与真实生产(GPT‑5.2 标注真生产为"评估"的概率 5.4%,模拟流量 5.1%)。最关键的是:风险评估质量随**算力**扩展,而非随手工写 prompt 的工作量。 ## 实证效果 在 20 类预注册的不当行为预测上,中位乘性误差 **1.5×**——真实部署率 10/100k 时,预估落在 6.67–15/100k。OpenAI 用此方法在 GPT‑5.1 发布前就抓出了"calculator hacking"这一新型失准行为。 方法也已扩展到 **agentic coding**:用 LLM 模拟工具调用,把保真度从 11.6% 拉到 49.5%(接近 50% 随机线)。外部审计也能受益——WildChat 公开数据作前缀时,平均误差 2.44×,仍能识别更安全的候选模型。 ## 评论 部署模拟的核心贡献是**评估范式的转移**:从"造题→跑题"转向"采样→回放",把 risk assessment 变成可随算力堆叠的统计估计问题。这对 Anthropic、xAI、DeepMind 以及国内 GLM、Kimi 团队都有直接参考价值。前提有两个:足够体量的真实流量 + 明确隐私脱敏流程。