‌StepFun AI开源音频编辑模型Step-Audio-EditX：让语音编辑如文本般精准可控

若安丶 • 2025年11月10日 14:43:50 • 产品

StepFun AI近日推出开源音频编辑模型‌Step-Audio-EditX‌，这一创新的3B参数模型通过将音频信号转换为逐字令牌操作，首次实现了像编辑文本一样直接控制语音内容。该技术突破了传统零样本TTS系统在情感、风格和音色调节上的局限，为语音合成领域带来重大革新。

‌StepFun AI开源音频编辑模型Step-Audio-EditX：让语音编辑如文本般精准可控

传统TTS系统虽能生成自然语音，但往往难以精确满足用户需求。过去的研究依赖复杂架构拆分控制因素，而Step-Audio-EditX另辟蹊径，采用双代码本标记器技术：以16.7Hz记录语言流、25Hz捕捉语义流，并在混合文本-音频语料库上联合训练，实现了对语音要素的精细化编辑。模型通过大边距学习和强化学习优化，利用6万说话者数据及人类偏好评分，显著提升了情感与风格编辑的准确性。

为验证性能，研究团队开发了Step-Audio-Edit-Test基准测试，结果显示多轮编辑后模型在风格还原度上提升显著。更值得注意的是，该模型还能增强闭源TTS系统的输出质量，展现出广泛的兼容性。这一突破不仅为音频编辑研究开辟新路径，也为影视制作、有声内容创作等场景提供了更灵活的AI工具。

作为开源项目，Step-Audio-EditX的发布降低了先进语音技术的使用门槛，其令牌化编辑思路可能成为未来语音交互系统的关键技术范式。随着模型迭代，我们有望看到更智能、更人性化的语音编辑应用落地。

原创文章，作者：若安丶，如若转载，请注明出处：https://www.kejixun.co/article/738181.html

若安丶管理团队

0 0

产品

REDMI K90 至尊版正式发布回归骁龙芯，配齐风冷独显大电池

6 月 30 日，REDMI K90 至尊版正式发布。新一代至尊版搭载“骁龙 8 至尊版 + 游戏独显 D2”的“狂暴双芯”组合，且全面继承 REDMI K90 Max 的行业最强…

科技观察者
1天前
产品

【直播已结束】REDMI K90 至尊版新品发布会

直播简介： REDMI K90 至尊版，定档 6 月 30 日 19:00 直播发布。新一代性能魔王，搭载 K90 Max 同款风冷主动散热，大尺寸风扇、涡流风道，百秒直降 10℃…

XIAOMI
1天前
产品

诺基亚时代经典产品线命名回归，HMD Asha 305 神秘新机现身官网

6月29日，据外媒 Nokiamob 报道，HMD Global 旗下一款型号为 TA-1779 的新手机认证文件现已悄悄现身官网，相关文件中直接出现了“HMD Asha 305”…

小丸子
2天前
产品

摩托罗拉海外发布Moto Pad 70 Pro平板：13英寸3.5K屏配骁龙8s Gen 4

联想旗下摩托罗拉昨日在海外市场正式推出Moto Pad 70 Pro平板电脑，该机型将于7月4日起在印度率先开售。新品采用金属机身设计，厚度仅6.2毫米，重量控制在589克，便携…

泡沫大盗
3天前
产品

打造AI轻办公神器 vivo X Fold6折叠旗舰新品正式发布

6月26日，vivo正式发布新一代折叠旗舰vivo X Fold6。聚焦“大屏+AI生产力”，为AI创造任务空间，全新vivo X Fold6不仅是对折叠屏手机核心价值的一次重新定…

科技观察者
5天前
产品

vivo TWS 5 Pro正式发布，以独立Hi-Fi DAC芯片与圈铁纯净音质重塑旗舰听感

6月26日，vivo TWS 5 Pro正式发布。作为vivo全新旗舰TWS耳机，vivo TWS 5 Pro凝聚vivo多年声学技术沉淀，从解码、传输、声学结构到专业调校，以独立…

小丸子
5天前
AI

消息称苹果正开发“iRing”智能戒指，或将入局可穿戴健康赛道

据知名爆料人@Kosutami_Ito昨日在X平台发布的消息，苹果公司正在开发一款名为“Ring”的智能戒指，上市后预计将与Oura Ring及三星Galaxy Ring等产品展开…

野游栗
5天前
产品

苹果罕见全球提价，直言“无法再保护消费者”

6月26日，苹果公司周四宣布对Mac、iPad及多款硬件产品实施全球提价，涨幅最高达300美元，成为该公司近年来最大规模的一次全球性调价行动。此次涨价直接由存储芯片短缺引发，苹果坦…

苹果派
5天前
产品

百吋赛道上的“系统性胜利”：海信电视618实现技术、产品、心智三重领跑

　　2026年618叠加美加墨世界杯消费热潮，给存量市场下的电视行业喂了一剂猛药，百吋大屏凭借匹配现代家装、满足家庭多元娱乐场景等优势，全面爆发。值得注意的是，不同于往年618线上…

小丸子
6天前
产品

高通发布骁龙Reality Elite旗舰XR芯片 AI算力飙升160%

今日，高通公司正式发布骁龙Reality Elite全新旗舰XR芯片平台，该芯片打破了高通以往XR头显芯片的命名惯例，本质上是第三代骁龙XR2的更名版本，专为高性能一体式XR设备打…

小科同学
2026年6月17日
产品

英特尔“Raptor Lake Next”处理器更多细节曝光，预计2027年初投产

据外媒VideoCardz及消息人士@jaykihn0透露，英特尔计划于2027年1月底正式启动“Raptor Lake Next”处理器的生产，其质量认证样品最早有望在2026年…

泡沫大盗
2026年6月15日
产品

谷歌推出DiffusionGemma：本地AI推理速度提升4倍，开源文本扩散模型

谷歌今日发布公告，宣布推出DiffusionGemma——一款基于文本扩散机制的开放AI模型。与当前主流的自回归大语言模型（如GPT、Gemini）逐个生成token的方式不同，扩…

Google
2026年6月11日
产品

小米17T系列正式发布续航影像全能旗舰登场

6月8日下午，小米正式发布全新小米17T系列，包括小米17T与小米17T Pro两款产品。对于国内消费者而言，这不仅是一场常规新品发布，更是小米T系列时隔七年后首次重返中国市场的重…

科技观察者
2026年6月8日
产品

任天堂Switch 2涨价后日本销量暴跌

任天堂于5月下旬在日本市场上调了Switch 2游戏机的价格，主打型号“日本语·国内专用”版从49980日元（约合2120元人民币）涨至59980日元（约合2545元人民币），涨幅…

聆听
2026年6月5日
产品

亮亮视野以AR+AI会议翻译系统支持香山旅游峰会，推动文旅无障碍沟通落地

6月2日，2026世界旅游城市联合会北京香山旅游峰会在北京举行。作为峰会独家AR眼镜及翻译系统提供方，亮亮视野AR+AI会议翻译系统与Hey2 AR翻译眼镜，为开幕式主论坛、六场分…

泡沫大盗
2026年6月3日
产品

历时20年！重要数据，重磅发布！与你有关→

你花钱的理由，是“有用”还是“开心”？你有多久没给自己的幸福感打分？你所在的城市，在全国人民心里是什么印象？ …

陈晨
2026年6月3日
产品

微星推出全球首款自带 Agentic AI 伴侣的游戏台式机

6月1日，微星宣布推出 MEG Vision X2 AI+ 台式整机，号称是“全球首款自带 Agentic AI 伴侣的游戏台式机”。据报道，MEG Vision X2 AI+ …

潮玩君
2026年6月1日
产品

vivo首款无线头戴降噪耳机登场，解锁年轻人的“降噪好搭子”

5月29日，vivo首款无线头戴降噪耳机正式发布。新品聚焦年轻人的真实生活场景，以“沉浸听感、轻盈舒适佩戴、跨生态无缝连接”三大核心体验为原点，打造兼具专业音质与穿搭属性的 VOT…

科技观察者
2026年5月29日
产品

vivo S60系列正式发布，4K Live原相机，帧帧丝滑真清晰

5月29日，vivo 正式发布全新vivo S60系列。作为 vivo S 系列美学旗舰的全新一代产品，vivo S60系列围绕年轻用户对审美表达、鲜活记录与长期体验的真实需求，在…

科技观察者
2026年5月29日
产品

雷鸟创新双品齐发：GT 系列、V4 同台亮相，次世代 AI 眼镜雷鸟 iO 预告

2026 年 5 月 27 日，全球领先消费级 AR 品牌雷鸟创新（RayNeo）携手 TCL 好莱坞中国剧院举办夏季新品发布会，正式推出行业首款专业影视级 AR 眼镜雷鸟 GT …

科技观察者
2026年5月27日

发表回复

登录后才能评论

‌StepFun AI开源音频编辑模型Step-Audio-EditX：让语音编辑如文本般精准可控

相关推荐

发表回复