‌OpenAI Realtime API正式上线:支持情感感知与多语言切换

‌OpenAI Realtime API正式上线:支持情感感知与多语言切换

OpenAI近日宣布其“Realtime API”正式结束测试阶段(Beta),投入生产环境。这一面向企业与开发者的新API,核心搭载了‌gpt-realtime‌语音对话模型,采用端到端Speech-to-Speech架构,可直接生成和处理语音,省去传统文本转换步骤。相比前代版本,其响应速度更快、语音更自然,复杂指令处理能力显著提升,适用于客户支持、教育及个人效率工具等场景。

该模型新增了情感感知功能,可捕捉笑声等非语言信号,并支持对话中无缝切换语言。开发者还能自定义语音语气,例如“带法国口音的友好语调”或“语速较快的专业语调”。性能方面,gpt-realtime在多项基准测试中表现亮眼:Big Bench Audio准确率从65.6%提升至82.8%,ComplexFuncBench从49.7%跃升至66.5%。

此次升级还优化了工具集成流程,模型能更精准地选择并触发外部工具,同时支持图像输入功能——用户可发送截图或照片,模型将基于图像内容交互,例如识别文字或解答相关问题。成本控制方面,API价格降低20%,音频输入/输出token每百万个分别定价32美元和64美元,并新增token使用上限设置功能。

安全措施上,API可自动检测违规内容并终止会话,但OpenAI强调开发者需补充自定义安全规则。针对欧盟用户,数据本地化存储选项和特殊隐私规则已同步上线,以符合GDPR要求。

原创文章,作者:AI,如若转载,请注明出处:https://www.kejixun.co/article/732353.html

AI的头像AI认证作者

相关推荐

发表回复

登录后才能评论