阿里千问发布Qwen3.5-Omni全模态大模型 自然涌现音视频编程能力

3月30日晚,阿里千问正式发布全模态大模型Qwen3.5-Omni。这款模型能够无缝理解文本、图片、音频及音视频输入,支持细粒度、带时间戳的音视频描述生成,在215项评测中取得SOTA(最先进)成绩,涵盖音频理解、推理、对话、翻译等多个方向,全面超越Gemini3.1-Pro。

阿里千问发布Qwen3.5-Omni全模态大模型  自然涌现音视频编程能力

Qwen3.5-Omni最令人惊喜的能力之一,是自然涌现出的Audio-Visual Vibe Coding能力。未经专门训练,模型就能根据画面逻辑直接生成Python代码或前端原型。上传一段视频,它能生成细粒度、结构化、带时间戳的精确描述:画面中的人物、对话内容、背景音乐变化的时间点、镜头切换次数、每一帧发生的事件……甚至还能判断视频是否包含敏感内容,将长视频转化为可搜索的结构化笔记。这种从“看”到“做”的能力,让创意验证只需一步即可完成。

在实时对话体验上,Qwen3.5-Omni也向真人交互迈出了一大步。它懂得倾听的分寸——咳嗽声或随口附和不会让它误判而停下来,但用户的真正插话它能瞬间接住。用户还可以像指挥真人一样,用“小声点”“用开心的语气”等指令自由控制声音的大小、语速与情绪。配合ARIA技术,语音输出的稳定性和自然度也进一步改善。

音色克隆功能则为个性化交互打开了新空间。用户只需上传一段录音,就能定制专属的AI助手音色。克隆后的声音自然度高、稳定性强,支持多种语言生成。这意味着每个人都可以打造一个“数字分身”式助手,用自己的声音去沟通、去陪伴,让交互更具个性化。

Qwen3.5-Omni不仅擅长聊天,更能真正帮用户办事。询问“明天北京天气如何,推荐一家酒店”,它能自主判断是否需要联网搜索,调用工具查询实时信息并给出完整建议。原生支持WebSearch和复杂Function Call,让模型从“聊天机器人”进化为“执行助手”。

在技术规格上,Qwen3.5-Omni支持256K超长上下文与113种语言识别,可处理长达10小时的音频或1小时的视频。相比上一代,模型在长上下文、多语言、音视频理解能力上均有明显提升,同时新增了语义打断、音色克隆、语音控制等实时交互能力。视觉和文本能力则与同尺寸的Qwen3.5模型持平。

用户可通过阿里云百炼搜索Qwen3.5-Omni调用API,官方提供了Plus、Flash、Light三种尺寸,以满足不同场景的需求。从“看懂”到“听懂”,从“聊天”到“办事”,Qwen3.5-Omni的发布,标志着全模态AI助手正在向更自然、更实用、更个性化的方向加速演进。

原创文章,作者:泡沫大盗,如若转载,请注明出处:https://www.kejixun.co/article/748905.html

泡沫大盗的头像泡沫大盗认证作者

相关推荐

发表回复

登录后才能评论