阿里通义发布PrismAudio：视频生成环境音框架，让AI“先思考再发声”

潮玩君 • 2026年3月25日 13:36:00 • AI

3月25日，据报道，阿里巴巴通义实验室发布PrismAudio，这是一个专注于环境音/音效合成的视频生成音频框架。与常见的人物配音不同，PrismAudio致力于生成马蹄声、风雨声、金属敲击声等与画面内容同步的背景声音。

传统的配音模型采用“端到端”方式直接输出音频，内部过程不可控。PrismAudio则让模型先“写笔记”：分析视频内容应发出什么声音、声音何时开始结束、音质如何、声源方位等信息，形成一份完整的“行动指南”后再交给音频生成模型执行。这种分解式思维链将思考过程拆解，每一步都有据可依。

生成音频后，PrismAudio引入四位“老师”从不同维度持续打分：语义老师检查声音与画面内容是否匹配；时序老师精准测量声音与动作是否同步；美学老师评估音质的清晰度、动态、丰富度；空间老师验证左右声道信息与画面中声源位置是否一致。四个分数加权形成综合评分，模型的目标是不断调整生成策略让总分越来越高，避免被单一标准牵着走。

为实现强化学习优化模型，团队设计了高效训练算法Fast-GRPO，将随机探索限制在生成过程的极短时间内，其余时间走快速通道。结果显示，在单独优化某个指标时，Fast-GRPO只用200步就达到了传统方法600步的性能水平，大幅缩短训练时间。从“先写笔记”到“四位老师打分”，PrismAudio正以独特的思维链与强化学习结合，提升视频环境音生成的质量与可控性。

原创文章，作者：潮玩君，如若转载，请注明出处：https://www.kejixun.co/article/748421.html

Fast-GRPO PrismAudio 通义阿里巴巴

潮玩君管理团队

0 0

商业

传腾讯阿里正洽谈投资DeepSeek，估值或超200亿美元

据科技媒体The Information报道，腾讯控股与阿里巴巴集团正就投资AI初创公司DeepSeek展开洽谈。若交易达成，DeepSeek的估值将超过200亿美元，约合1367…

商业头条
2026年4月23日
AI

阿里巴巴推出新一代AI模型Qwen3.6-Max-Preview，编程能力大幅提升

阿里巴巴近日正式发布Qwen系列新一代旗舰模型——Qwen3.6-Max-Preview。作为该系列的早期预览版，用户现已可在QwenStudio中与其进行交互对话，并通过阿里云百…

AI
2026年4月21日
AI

阿里巴巴推出AI开发工具Meoo：零代码一分钟生成网站

阿里巴巴旗下ATH事业群近日正式发布了一款全新的AI开发工具——Meoo（中文名“秒悟”）。该工具集成了千问、Kimi、GLM和MiniMax四大国内顶尖AI模型，旨在让没有任何编…

AI
2026年4月16日
新闻

阿里巴巴新设集团技术委员会升级通义大模型事业部

4月9日，据报道，阿里巴巴集团 CEO 吴泳铭发布内部信，宣布 AI 相关组织调整，包括新设立集团技术委员会，升级通义大模型事业部，加速 AI 建设。根据内部信，阿里巴巴在集团层…

柠萌
2026年4月9日
AI

阿里通义 CoPaw 1.0 发布：定制小模型、安全机制与多智能体全面进化

4月1日，阿里通义实验室宣布 CoPaw 1.0 版本正式发布。此次更新重点围绕定制小模型、安全机制、多智能体协同以及记忆管理四大方面进行能力升级。CoPaw 基于 AgentSc…

科技观察者
2026年4月1日
新闻

阿里巴巴蔡崇信：发展 AI 终极目标并非仅研发前沿模型，而是造福社会

3月23日，据报道，阿里巴巴集团主席蔡崇信在中国发展高层论坛 2026 年年会“技术创新与未来产业发展专题研讨会”上发表演讲，系统阐述了中国人工智能发展的三大核心驱动力，并披露阿里…

校草
2026年3月23日
新闻

阿里巴巴发布企业级AI原生工作平台“悟空” 内置于钉钉

3月18日，据报道，阿里巴巴近日发布企业级AI原生工作平台“悟空”。据悉，悟空是一款独立应用，即日起开启邀测，并将直接内置到钉钉之中。为配合该平台，钉钉进行了全面CLI（命令行界面…

若安丶
2026年3月18日
新闻

马云现身杭州云谷学校交流AI 蔡崇信、吴泳铭等阿里核心管理层罕见聚齐

3月3日晚间，据报道，马云与阿里、蚂蚁的核心管理层来到杭州云谷学校，与校长、老师们畅谈AI带来的挑战和机会。云谷学校公众号显示，阿里巴巴集团主席蔡崇信、CEO吴泳铭、风险委员会主…

柠萌
2026年3月4日
新闻

市场监管总局约谈7家平台企业，要求杜绝“内卷式”竞争

有媒体报道，国家市场监督管理总局近日对国内主要平台企业进行集中约谈，剑指促销推广活动中存在的突出问题。2月13日，市场监管总局约谈了阿里巴巴、抖音、百度、腾讯、京东、美团、淘宝闪购…

柠萌
2026年2月15日
AI

阿里发布低推理成本编程AI模型Qwen3-Coder-Next 赋能本地开发与智能体

阿里巴巴旗下千问团队近日正式推出专为编码代理与本地开发打造的开放权重语言模型Qwen3-Coder-Next。该模型基于其基础架构构建，采用了创新的混合注意力与专家混合模型（MoE…

好奇宝宝
2026年2月4日
AI

千问App砸30亿推春节请客计划，阿里生态联动免单吃喝玩乐

阿里巴巴旗下AI应用千问App宣布，将投入30亿元启动“春节请客计划”，该活动将于2月6日正式上线。据悉，春节期间，千问App将联合淘宝闪购、飞猪、大麦、盒马、天猫超市、支付宝等阿…

AI
2026年2月2日
新闻

‌美图与阿里2.5亿美元可转债落地，AI电商合作全面启动

昨日，美图公司正式宣布，与阿里巴巴签署的2.5亿美元可转债协议所有先决条件均已达成，并于当日完成交割。此次资金注入将用于公司一般商业用途，标志着双方战略合作进入实质性落地阶段。早…

野游栗
2026年1月1日
AI

阿里巴巴开源“高情商”语音AI 交互体验直逼真人

据报道，阿里巴巴通义实验室正式开源新一代端到端语音交互大模型Fun-Audio-Chat-8B，以超低延迟、自然流畅的交互体验，推动开源语音AI进入全新阶段。该模型不仅能实时理解用…

小科同学
2025年12月25日
AI

阿里巴巴通义千问发布Qwen-Image-Layered 颠覆图像编辑规则

阿里巴巴通义千问团队近日发布革命性模型Qwen-Image-Layered，首次实现将普通照片自动分解为多个可独立编辑的RGBA图层，彻底打破AI图像编辑“整体重绘”的局限。用户无…

AI
2025年12月22日
AI

‌阿里巴巴开源”百聆”语音大模型 3秒录音可克隆音色并切换9国语言

阿里巴巴通义大模型近日宣布，其”百聆”系列语音模型完成重大升级并正式开源。此次发布的两款新型语音模型突破性实现了仅需3秒录音即可无缝切换9种语言和18种方言…

AI
2025年12月16日
AI

‌阿里巴巴通义千问团队斩获NeurIPS 2025最佳论文奖，中国AI研究再登国际顶会

全球人工智能顶级会议NeurIPS 2025于昨晚公布获奖名单，阿里巴巴通义千问团队凭借论文《Attention Gating Makes Better Foundation Mo…

柠萌
2025年11月30日
AI

‌新加坡AISG发布新一代大语言模型Qwen-Sea-Lion-v4 东南亚语言性能领先8.4%

新加坡人工智能计划AISG今日正式发布新一代大语言模型Qwen-Sea-Lion-v4，其底层架构已从Meta Llama全面切换为阿里巴巴“通义千问”Qwen3-32B。该模型在…

AI
2025年11月27日
新闻

阿里巴巴CEO吴泳铭：打造超级AI云推动开源开放和技术普惠

11月7日上午，2025年世界互联网大会乌镇峰会开幕。阿里巴巴集团CEO吴泳铭在开幕式上致辞，他表示，AI技术向“通用人工智能（AGI）”加速演进，最终将实现“超级人工智能（ASI…

小丸子
2025年11月7日
产品

阿里首款自研AI眼镜”夸克”开启预售双芯片+近眼导航定价3999元

有消息称，阿里巴巴集团旗下首款自研AI眼镜”夸克AI眼镜”在天猫平台开启预售，该产品凭借高德近眼导航、支付宝”看一看”安全支付等创新…

AI
2025年10月24日
AI

‌阿里巴巴布局具身智能推动AI从虚拟走向现实

有消息称，阿里巴巴在机器人领域迈出重要一步，其通义千问大语言模型负责人林俊旸近日宣布已组建机器人和具身智能的小型团队。这一动作标志着阿里正加速将多模态基础模型转化为能实际作用于物理…

聆听
2025年10月9日

发表回复

登录后才能评论

阿里通义发布PrismAudio：视频生成环境音框架，让AI“先思考再发声”

相关推荐

发表回复