5月7日,OpenAI 在 API 中上线三款音频模型:GPT‑Realtime‑2(集成 GPT‑5 级推理的语音模型)、GPT‑Realtime‑Translate(覆盖 70+ 输入语言、13 种输出语言的实时翻译)以及 GPT‑Realtime‑Whisper(流式语音转文字)。 **这次不同在哪里?** 之前大多数语音 AI 本质上是「语音化的命令执行器」——听清一句话、执行单一指令、结束。GPT‑Realtime‑2 的核心升级在于将大模型推理直接嵌入语音交互链路。几个值得注意的技术细节: - **上下文窗口从 32K 扩展至 128K**:足以支撑多轮复杂任务,例如连贯的旅行规划会话。 - **并行工具调用 + 过程透明化**:模型可同时执行多个工具,并用「正在查询您的日历」等语音反馈告知用户状态,而不是干等最终答案。 - **更强容错与恢复能力**:工具调用失败时,模型会生成自然的补救话术,而非沉默或崩溃。 **实时翻译的落地价值** GPT‑Realtime‑Translate 将翻译从「说完一段再翻」推进到「边说边翻」。Deutsche Telekom 已宣布将其用于多语言客户支持,Priceline 计划用其帮助旅客完成全程语音行程管理。这对跨语言客服、医疗咨询等场景有直接价值。 **评论:语音正在成为真正的 UI** 过去语音助手稍复杂的任务就露馅,GPT‑Realtime‑2 代表了一次质变——将强推理模型直接暴露在用户面前,而非藏在文字输入框后面。对企业而言,下一步的挑战更多是响应延迟和 SLA 保证,而非模型能力本身。2026 年,或许是企业市场真正检验这条路线可行性的元年。