OpenAI筹备推出GPT-Bidi-1双向音频模型,ChatGPT语音迎重大升级

OpenAI筹备推出GPT-Bidi-1双向音频模型,ChatGPT语音迎重大升级

据科技媒体testingcatalog报道,OpenAI正在筹备推出名为“GPT-Bidi-1”的下一代双向音频模型,这将成为ChatGPT语音模式自推出以来最大规模的升级。

该模型采用双向(Bidirectional)架构,彻底改变了以往AI语音交互中“单工对讲”的局限,支持系统同时进行聆听与表达,能够实时捕捉用户的插话与打断,并在不发生卡顿或死机的情况下动态调整语义输出,大幅提升实时语音对话的自然度。OpenAI于2026年年初开始研发这一“双向”架构,其核心优势在于能够持续处理说话者的语音输入,即便被打断也能立即根据新的语音信息调整回应内容。

目前,OpenAI已在Web端和移动端为该模型的上线铺设了基础代码。产品形态上,新功能上线后预计将与现有的高级语音模式并存,用户可自主切换至“Bidi(最新)”模式。此外,该模型在文本侧分级的基础上,首度在语音端引入了“高”“中”“即时”三种智力与速度分级,允许用户根据具体任务在交互深度与响应速度之间做出权衡。此次技术迭代不仅是单纯的音质或语调升级,更是OpenAI在多模态战略上的关键补齐。此前,OpenAI的文本大模型已迭代至具有更强推理能力的GPT-5.5世代,而语音大模型相对滞后,导致多模态体验出现断层。

GPT-Bidi-1的推出不仅能够补齐这一推理能力差距,更彰显了OpenAI将语音视为下一代AI核心入口的战略野心,为其后续全面布局语音优先的硬件设备及企业级语音支持工具奠定了关键技术基石。

原创文章,作者:net,如若转载,请注明出处:https://www.kejixun.co/article/755464.html

net的头像net认证作者

相关推荐

发表回复

登录后才能评论