
快手旗下AI品牌可灵近日正式发布其首个”音画同出”多模态生成模型——可灵2.6,该技术突破性地实现在单次生成过程中同步输出画面、自然语音、环境音效及氛围背景,将AI内容创作体验提升至全新维度。作为短视频平台在生成式AI领域的重要布局,该模型通过”文生音画”与”图生音画”双路径创作,全面覆盖从单人独白到多人对白、从旁白解说至音乐表演的多元内容场景。
可灵2.6的核心创新在于其多模态协同生成能力。用户输入文本或图片后,系统不仅生成匹配的视觉内容,还能自动合成符合情境的语音对话与背景音效,形成完整的视听叙事闭环。这种”一键成片”的特性显著降低了专业级内容创作门槛,尤其适合短视频创作者快速生产高质量内容。技术团队透露,模型特别优化了中文语境下的语音自然度与画面连贯性,确保生成内容符合本土用户审美习惯。
此次发布标志着快手在AI生成技术领域的持续深化。相比前代版本,可灵2.6新增的环境氛围生成功能,能够根据内容主题自动适配不同场景的声光效果,例如为悬疑故事添加阴森音效,为美食视频匹配欢快背景音乐。平台方表示,该技术将率先应用于快手站内创作工具,未来可能开放API接口赋能更多开发者。
原创文章,作者:野游栗,如若转载,请注明出处:https://www.kejixun.co/article/740286.html