当地时间 5 月 7 日,OpenAI 宣布为其 API 推出一系列新的语音智能功能,标志着实时音频交互从简单的问答迈向真正能完成工作的语音界面。 本次发布包含三个核心模型:**GPT-Realtime-2** 是新一代语音模型,基于 GPT-5 类推理能力构建,专门处理复杂用户请求,能够进行高度逼真的语音对话;**GPT-Realtime-Translate** 实现实时语音翻译,支持超过 70 种输入语言和 13 种输出语言,能够跟上对话节奏提供自然的口语翻译;**GPT-Realtime-Whisper** 则提供实时语音转文字功能,在对话进行时即时捕获并转写用户语音。 这三个模型的组合让实时音频交互从「听话」进化到「能干活」——系统可以倾听、推理、翻译、转录,并在对话展开过程中采取行动。企业客户服务是显而易见的应用场景,但 OpenAI 同样看好教育、媒体、活动和创作者平台等领域的潜力。 技术层面,这次发布有几点值得关注:其一,GPT-Realtime-2 明确基于 GPT-5 级推理能力构建,表明 OpenAI 正在将前沿语言模型的推理能力向下迁移到实时语音场景;其二,翻译模型支持 70+ 输入语言体现了多语言能力的规模化;其三,三者均通过 OpenAI Realtime API 提供,计费模式透明(翻译和 Whisper 按分钟计费,Realtime-2 按 token 计费)。 当然,语音能力的普及也带来了滥用风险。OpenAI 明确表示已内置安全防护机制,在检测到违反内容准则的对话时会终止交互。这种主动设计值得肯定,但随着功能进入更广泛开发者生态,实际效果仍需观察。 对于 AI 应用开发者而言,这次更新提供了一个明确信号:多模态实时交互已从实验性功能演变为生产级基础设施。构建真正能替代人工的语音助手,在技术上已经不是问「能不能」,而是「怎么做」的问题了。