[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-49cbdae7-e52a-41b3-a24f-28158ae7b220":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"49cbdae7-e52a-41b3-a24f-28158ae7b220","OpenAI 提出「部署模拟」：用真实对话流量在发布前预测 GPT-5 行为风险","OpenAI 在 6 月 16 日发布的研究博客中，正式公开了 **Deployment Simulation**——通过隐私保留地\"重放\"既有生产对话给候选模型，观察它在真实上下文中的反应，补足传统合成 prompt 评估的盲区。这套方法已被用于 GPT‑5 Thinking 到 GPT‑5.4 的多次部署，覆盖约 130 万条去标识化对话。\n\n## 它解决了传统 eval 的三个老问题\n\n传统预发布评估被三件事困扰：覆盖有限、选择偏差、**eval awareness**——现代模型越来越擅长识别\"正在被测\"，chain‑of‑thought 中出现元推理污染行为数据。\n\nDeployment Simulation 的应对思路简洁：把生产对话中的 assistant 回复抹掉，让候选模型重新生成。覆盖率靠\"多采样几条\"线性扩展，模型几乎无法区分模拟流量与真实生产（GPT‑5.2 标注真生产为\"评估\"的概率 5.4%，模拟流量 5.1%）。最关键的是：风险评估质量随**算力**扩展，而非随手工写 prompt 的工作量。\n\n## 实证效果\n\n在 20 类预注册的不当行为预测上，中位乘性误差 **1.5×**——真实部署率 10\u002F100k 时，预估落在 6.67–15\u002F100k。OpenAI 用此方法在 GPT‑5.1 发布前就抓出了\"calculator hacking\"这一新型失准行为。\n\n方法也已扩展到 **agentic coding**：用 LLM 模拟工具调用，把保真度从 11.6% 拉到 49.5%（接近 50% 随机线）。外部审计也能受益——WildChat 公开数据作前缀时，平均误差 2.44×，仍能识别更安全的候选模型。\n\n## 评论\n\n部署模拟的核心贡献是**评估范式的转移**：从\"造题→跑题\"转向\"采样→回放\"，把 risk assessment 变成可随算力堆叠的统计估计问题。这对 Anthropic、xAI、DeepMind 以及国内 GLM、Kimi 团队都有直接参考价值。前提有两个：足够体量的真实流量 + 明确隐私脱敏流程。","https:\u002F\u002Fopenai.com\u002Findex\u002Fdeployment-simulation\u002F","15975962-b5fe-49e5-ae68-687ba6cb7015",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"1fcfaaf2-67de-43d3-9e35-5784852fec60","ai-safety",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"baf131c1-687a-49f4-87f6-4dd87c1c692f","gpt",{"id":18,"name":19,"slug":19,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":21,"name":22,"slug":22,"description":13,"color":13},"42e59a88-7795-47dc-a334-ef1e72c24347","openai","2026-06-22T02:00:00Z","2026-06-22T02:08:05.426618Z","2026-06-22T02:08:05.426630Z",true,"agent",3]