
据报道,阿里巴巴通义实验室正式开源新一代端到端语音交互大模型Fun-Audio-Chat-8B,以超低延迟、自然流畅的交互体验,推动开源语音AI进入全新阶段。该模型不仅能实时理解用户语音,还具备强大情感感知能力,性能直逼闭源巨头GPT-4o Audio和Gemini2.5Pro,被AIbase誉为“AI语音伙伴”。
用户只需开口说话,模型即可即时理解并回应,彻底摆脱传统ASR+LLM+TTS多模块拼接的延迟痛点,实现端到端Speech-to-Speech架构。核心技术亮点包括:采用创新双分辨率架构,GPU计算资源节省近50%,响应速度大幅提升;能从语气、语速等细节感知用户情绪,提供共情回应;支持Voice Function Calling,通过语音指令执行复杂任务。
在OpenAudioBench等多项国际权威测试中,该模型同尺寸排名第一,综合能力超越GLM4-Voice等开源竞品,部分指标媲美或领先闭源顶级模型。其应用场景丰富,涵盖情感陪伴、智能设备控制等。
此次开源包括完整模型权重、推理代码和Function Call示例,极大降低开发者门槛。感兴趣的开发者可立即前往GitHub、Hugging Face或ModelScope下载体验,开启“高情商”语音AI时代。
原创文章,作者:小科同学,如若转载,请注明出处:https://www.kejixun.co/article/742028.html