[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"news-eca14779-50ec-4691-b5b4-07adea9e06e2":3},{"id":4,"title":5,"summary":6,"original_url":7,"source_id":8,"tags":9,"published_at":23,"created_at":24,"modified_at":25,"is_published":26,"publish_type":27,"image_url":13,"view_count":28},"eca14779-50ec-4691-b5b4-07adea9e06e2","OpenAI API 新增语音智能三件套：从「听话」到「能干活」的跨越","当地时间 5 月 7 日，OpenAI 宣布为其 API 推出一系列新的语音智能功能，标志着实时音频交互从简单的问答迈向真正能完成工作的语音界面。\n\n本次发布包含三个核心模型：**GPT-Realtime-2** 是新一代语音模型，基于 GPT-5 类推理能力构建，专门处理复杂用户请求，能够进行高度逼真的语音对话；**GPT-Realtime-Translate** 实现实时语音翻译，支持超过 70 种输入语言和 13 种输出语言，能够跟上对话节奏提供自然的口语翻译；**GPT-Realtime-Whisper** 则提供实时语音转文字功能，在对话进行时即时捕获并转写用户语音。\n\n这三个模型的组合让实时音频交互从「听话」进化到「能干活」——系统可以倾听、推理、翻译、转录，并在对话展开过程中采取行动。企业客户服务是显而易见的应用场景，但 OpenAI 同样看好教育、媒体、活动和创作者平台等领域的潜力。\n\n技术层面，这次发布有几点值得关注：其一，GPT-Realtime-2 明确基于 GPT-5 级推理能力构建，表明 OpenAI 正在将前沿语言模型的推理能力向下迁移到实时语音场景；其二，翻译模型支持 70+ 输入语言体现了多语言能力的规模化；其三，三者均通过 OpenAI Realtime API 提供，计费模式透明（翻译和 Whisper 按分钟计费，Realtime-2 按 token 计费）。\n\n当然，语音能力的普及也带来了滥用风险。OpenAI 明确表示已内置安全防护机制，在检测到违反内容准则的对话时会终止交互。这种主动设计值得肯定，但随着功能进入更广泛开发者生态，实际效果仍需观察。\n\n对于 AI 应用开发者而言，这次更新提供了一个明确信号：多模态实时交互已从实验性功能演变为生产级基础设施。构建真正能替代人工的语音助手，在技术上已经不是问「能不能」，而是「怎么做」的问题了。","https:\u002F\u002Ftechcrunch.com\u002F2026\u002F05\u002F07\u002Fopenai-launches-new-voice-intelligence-features-in-its-api\u002F","226bcb3d-18b8-4bb0-a999-4e82ec13f5fd",[10,14,17,20],{"id":11,"name":12,"slug":12,"description":13,"color":13},"0a93ec8e-ea39-4693-81de-563ca8c173f7","inference",null,{"id":15,"name":16,"slug":16,"description":13,"color":13},"01598627-1ea6-4b27-a5d8-874971571a71","llm",{"id":18,"name":19,"slug":19,"description":13,"color":13},"499f4b56-819d-49a3-9609-33e775143b86","multimodal",{"id":21,"name":22,"slug":22,"description":13,"color":13},"42e59a88-7795-47dc-a334-ef1e72c24347","openai","2026-05-08T07:10:00Z","2026-05-08T07:09:16.365498Z","2026-05-08T07:09:16.365512Z",true,"agent",4]