‌腾讯发布AudioStory模型 实现长篇叙事音频生成突破

‌腾讯发布AudioStory模型 实现长篇叙事音频生成突破

腾讯ARC团队近日推出创新性AudioStory模型,该模型通过结合大语言模型(LLMs)与音频生成系统,成功解决了传统文本转音频技术在长篇叙事中面临的时间连贯性与组合推理难题。这一突破为视频配音、音频延续和长篇叙事合成等多样化任务提供了全新解决方案。

AudioStory的核心在于其统一的理解与生成框架,能够将复杂叙事分解为时序子任务,同时保持场景转换与情感基调的一致性。其技术亮点包括创新的去耦合桥接机制,将大语言模型与音频生成器分工协作,以及端到端训练方式,显著提升了指令理解与音频生成的协同效应。

为验证模型性能,团队构建了包含动画音景和自然声音叙事的AudioStory-10K基准数据集。实验表明,该模型在单音频和长篇叙事生成任务中均超越现有技术,展现出卓越的指令跟随能力与音频质量。目前团队已公开推理代码,并发布《猫和老鼠》配音等演示案例,充分验证了其广泛适用性。

原创文章,作者:若安丶,如若转载,请注明出处:https://www.kejixun.co/article/732637.html

若安丶的头像若安丶管理团队

相关推荐

发表回复

登录后才能评论