‌阿里巴巴开源”百聆”语音大模型 3秒录音可克隆音色并切换9国语言

‌阿里巴巴开源"百聆"语音大模型 3秒录音可克隆音色并切换9国语言

阿里巴巴通义大模型近日宣布,其”百聆”系列语音模型完成重大升级并正式开源。此次发布的两款新型语音模型突破性实现了仅需3秒录音即可无缝切换9种语言和18种方言,涵盖普通话、粤语、日语、英语等,还能模拟开心、愤怒等多种情感语音,为全球语音交互技术树立新标杆。

在技术层面,Fun-CosyVoice3模型通过算法优化将首包延迟降低50%,中英混合语音识别准确率显著提升。其创新的音色克隆功能允许用户通过3秒录音复刻特定人声,并生成自然流畅的新语音,该技术将大幅优化实时语音助手、直播配音和无障碍阅读等场景的体验。同步升级的Fun-ASR模型在噪声环境下识别准确率高达93%,支持歌词、说唱识别及多语言自由混说,流式识别首字延迟更压缩至160毫秒,使语音交互流畅度达到新高度。

此次开源的两款模型均支持本地化部署与二次开发,开发者可通过官方公布的开源代码进行定制化调整。阿里巴巴表示,该技术将推动语音技术在智能客服、教育娱乐、医疗辅助等多元场景的应用创新,其开源策略也有助于构建更开放的语音技术开发生态。随着多语言、多情感语音合成技术的成熟,人机交互的自然度和包容性将迎来跨越式发展。

原创文章,作者:AI,如若转载,请注明出处:https://www.kejixun.co/article/741125.html

AI的头像AI认证作者

相关推荐

发表回复

登录后才能评论