
小米今日正式推出MiMo-V2.5-TTS系列与MiMo-V2.5-ASR,这是一套面向Agent时代的全链路语音模型,覆盖语音识别与合成两大核心能力,让语音的输入输出均可被语言自由调度。
其中,MiMo-V2.5-TTS系列包含三款模型,现已登陆小米MiMo开放平台并限时免费使用。三款模型共享统一的风格指令遵循、音频标签控制与文本理解能力:标准版内置多款高质量精品音色,支持语速、情绪、语气等精细化控制;VoiceDesign版本可一句话快速生成全新音色;VoiceClone版本则能通过少量样本高保真复刻目标音色。用户像给演员说戏一样描述想要的感觉,模型即可稳定演绎,甚至支持导演剧本级的分层输入,让人物音色贯穿始终,每一句话的表演都可单独控制。
与此同时,MiMo-V2.5-ASR正式开源。该模型在中英双语、中文方言(吴语、粤语、闽南语、四川话等)、Code-Switch、强噪音、多说话人等复杂真实场景下均达到业界领先水平。它支持歌曲歌词识别、古诗词及专业术语等强知识关联内容的精准转录,并能原生输出标点。评测显示,其在多个维度取得最优或极具竞争力的结果。用户可前往Xiaomi MiMo API开放平台及MiMo Studio体验TTS系列,开发者则可通过开源代码直接使用或二次开发ASR模型。小米此次发布的全链路语音方案,为智能体交互提供了更自然、更可控的声音基础。
原创文章,作者:XIAOMI,如若转载,请注明出处:https://www.kejixun.co/article/750961.html