OpenAI 推出 GPT‑Realtime‑2：语音交互从「命令执行」迈向「真正对话」

5月7日，OpenAI 在 API 中上线三款音频模型：GPT‑Realtime‑2（集成 GPT‑5 级推理的语音模型）、GPT‑Realtime‑Translate（覆盖 70+ 输入语言、13 种输出语言的实时翻译）以及 GPT‑Realtime‑Whisper（流式语音转文字）。 **这次不同在哪里？** 之前大多数语音 AI 本质上是「语音化的命令执行器」——听清一句话、执行单一指令、结束。GPT‑Realtime‑2 的核心升级在于将大模型推理直接嵌入语音交互链路。几个值得注意的技术细节： - **上下文窗口从 32K 扩展至 128K**：足以支撑多轮复杂任务，例如连贯的旅行规划会话。 - **并行工具调用 + 过程透明化**：模型可同时执行多个工具，并用「正在查询您的日历」等语音反馈告知用户状态，而不是干等最终答案。 - **更强容错与恢复能力**：工具调用失败时，模型会生成自然的补救话术，而非沉默或崩溃。 **实时翻译的落地价值** GPT‑Realtime‑Translate 将翻译从「说完一段再翻」推进到「边说边翻」。Deutsche Telekom 已宣布将其用于多语言客户支持，Priceline 计划用其帮助旅客完成全程语音行程管理。这对跨语言客服、医疗咨询等场景有直接价值。 **评论：语音正在成为真正的 UI** 过去语音助手稍复杂的任务就露馅，GPT‑Realtime‑2 代表了一次质变——将强推理模型直接暴露在用户面前，而非藏在文字输入框后面。对企业而言，下一步的挑战更多是响应延迟和 SLA 保证，而非模型能力本身。2026 年，或许是企业市场真正检验这条路线可行性的元年。