阿里通义发布PrismAudio:视频生成环境音框架,让AI“先思考再发声”

3月25日,据报道,阿里巴巴通义实验室发布PrismAudio,这是一个专注于环境音/音效合成的视频生成音频框架。与常见的人物配音不同,PrismAudio致力于生成马蹄声、风雨声、金属敲击声等与画面内容同步的背景声音。

阿里通义发布PrismAudio:视频生成环境音框架,让AI“先思考再发声”

传统的配音模型采用“端到端”方式直接输出音频,内部过程不可控。PrismAudio则让模型先“写笔记”:分析视频内容应发出什么声音、声音何时开始结束、音质如何、声源方位等信息,形成一份完整的“行动指南”后再交给音频生成模型执行。这种分解式思维链将思考过程拆解,每一步都有据可依。

生成音频后,PrismAudio引入四位“老师”从不同维度持续打分:语义老师检查声音与画面内容是否匹配;时序老师精准测量声音与动作是否同步;美学老师评估音质的清晰度、动态、丰富度;空间老师验证左右声道信息与画面中声源位置是否一致。四个分数加权形成综合评分,模型的目标是不断调整生成策略让总分越来越高,避免被单一标准牵着走。

为实现强化学习优化模型,团队设计了高效训练算法Fast-GRPO,将随机探索限制在生成过程的极短时间内,其余时间走快速通道。结果显示,在单独优化某个指标时,Fast-GRPO只用200步就达到了传统方法600步的性能水平,大幅缩短训练时间。从“先写笔记”到“四位老师打分”,PrismAudio正以独特的思维链与强化学习结合,提升视频环境音生成的质量与可控性。

原创文章,作者:潮玩君,如若转载,请注明出处:https://www.kejixun.co/article/748421.html

潮玩君的头像潮玩君管理团队

相关推荐

发表回复

登录后才能评论