‌StepFun AI开源音频编辑模型Step-Audio-EditX:让语音编辑如文本般精准可控

StepFun AI近日推出开源音频编辑模型‌Step-Audio-EditX‌,这一创新的3B参数模型通过将音频信号转换为逐字令牌操作,首次实现了像编辑文本一样直接控制语音内容。该技术突破了传统零样本TTS系统在情感、风格和音色调节上的局限,为语音合成领域带来重大革新。

‌StepFun AI开源音频编辑模型Step-Audio-EditX:让语音编辑如文本般精准可控

传统TTS系统虽能生成自然语音,但往往难以精确满足用户需求。过去的研究依赖复杂架构拆分控制因素,而Step-Audio-EditX另辟蹊径,采用双代码本标记器技术:以16.7Hz记录语言流、25Hz捕捉语义流,并在混合文本-音频语料库上联合训练,实现了对语音要素的精细化编辑。模型通过大边距学习和强化学习优化,利用6万说话者数据及人类偏好评分,显著提升了情感与风格编辑的准确性。

为验证性能,研究团队开发了Step-Audio-Edit-Test基准测试,结果显示多轮编辑后模型在风格还原度上提升显著。更值得注意的是,该模型还能增强闭源TTS系统的输出质量,展现出广泛的兼容性。这一突破不仅为音频编辑研究开辟新路径,也为影视制作、有声内容创作等场景提供了更灵活的AI工具。

作为开源项目,Step-Audio-EditX的发布降低了先进语音技术的使用门槛,其令牌化编辑思路可能成为未来语音交互系统的关键技术范式。随着模型迭代,我们有望看到更智能、更人性化的语音编辑应用落地。

原创文章,作者:若安丶,如若转载,请注明出处:https://www.kejixun.co/article/738181.html

若安丶的头像若安丶管理团队

相关推荐

发表回复

登录后才能评论