阿里千问发布Qwen3.5-Omni全模态大模型自然涌现音视频编程能力

泡沫大盗 • 2026年3月31日 10:48:00 • AI

3月30日晚，阿里千问正式发布全模态大模型Qwen3.5-Omni。这款模型能够无缝理解文本、图片、音频及音视频输入，支持细粒度、带时间戳的音视频描述生成，在215项评测中取得SOTA（最先进）成绩，涵盖音频理解、推理、对话、翻译等多个方向，全面超越Gemini3.1-Pro。

Qwen3.5-Omni最令人惊喜的能力之一，是自然涌现出的Audio-Visual Vibe Coding能力。未经专门训练，模型就能根据画面逻辑直接生成Python代码或前端原型。上传一段视频，它能生成细粒度、结构化、带时间戳的精确描述：画面中的人物、对话内容、背景音乐变化的时间点、镜头切换次数、每一帧发生的事件……甚至还能判断视频是否包含敏感内容，将长视频转化为可搜索的结构化笔记。这种从“看”到“做”的能力，让创意验证只需一步即可完成。

在实时对话体验上，Qwen3.5-Omni也向真人交互迈出了一大步。它懂得倾听的分寸——咳嗽声或随口附和不会让它误判而停下来，但用户的真正插话它能瞬间接住。用户还可以像指挥真人一样，用“小声点”“用开心的语气”等指令自由控制声音的大小、语速与情绪。配合ARIA技术，语音输出的稳定性和自然度也进一步改善。

音色克隆功能则为个性化交互打开了新空间。用户只需上传一段录音，就能定制专属的AI助手音色。克隆后的声音自然度高、稳定性强，支持多种语言生成。这意味着每个人都可以打造一个“数字分身”式助手，用自己的声音去沟通、去陪伴，让交互更具个性化。

Qwen3.5-Omni不仅擅长聊天，更能真正帮用户办事。询问“明天北京天气如何，推荐一家酒店”，它能自主判断是否需要联网搜索，调用工具查询实时信息并给出完整建议。原生支持WebSearch和复杂Function Call，让模型从“聊天机器人”进化为“执行助手”。

在技术规格上，Qwen3.5-Omni支持256K超长上下文与113种语言识别，可处理长达10小时的音频或1小时的视频。相比上一代，模型在长上下文、多语言、音视频理解能力上均有明显提升，同时新增了语义打断、音色克隆、语音控制等实时交互能力。视觉和文本能力则与同尺寸的Qwen3.5模型持平。

用户可通过阿里云百炼搜索Qwen3.5-Omni调用API，官方提供了Plus、Flash、Light三种尺寸，以满足不同场景的需求。从“看懂”到“听懂”，从“聊天”到“办事”，Qwen3.5-Omni的发布，标志着全模态AI助手正在向更自然、更实用、更个性化的方向加速演进。

原创文章，作者：泡沫大盗，如若转载，请注明出处：https://www.kejixun.co/article/748905.html

Gemini Qwen3.5-Omni 千问阿里

泡沫大盗认证作者

0 0

AI

谷歌向全美免费用户开放个性化AI生图功能，Gemini再迎重磅升级

北京时间今日凌晨，谷歌宣布旗下Gemini应用由Nano Banana驱动的个性化图像生成功能正式向更多用户开放。即日起，所有符合条件的美国地区免费用户均可无障碍使用这一特性，不再…

Google
2小时前
AI

谷歌Gemini联席负责人诺姆·沙泽尔离职加入OpenAI

当地时间6月18日，谷歌前工程副总裁、Gemini技术联席负责人诺姆·沙泽尔在社交媒体X上宣布离职，并将加入OpenAI。沙泽尔表示，离开谷歌是一个艰难决定，他为谷歌团队及共同取得…

Google
2026年6月21日
AI

阿里巴巴发布千问具身智能大模型系列为机器人打造通用底座

昨日，阿里巴巴正式推出千问具身智能大模型Qwen-Robot系列，为各类机器人提供能够理解自然语言、感知三维环境并掌握物理规律的“通用底座”。该系列包含三款核心模型，既可独立执行…

AI
2026年6月17日
AI

谷歌 Gemini 语音助理曝漏洞，黑客利用特殊构造通知信息为 AI“下毒”

6月8日，安全公司 SafeBreach 披露，谷歌 Gemini 存在一种新型安全漏洞。黑客可通过 WhatsApp、短信等渠道发送特殊构造的通知信息，并将恶意指令隐藏在其他语言…

happy
2026年6月8日
AI

阿里千问全面开放第三方Agent，企业可打造专属品牌智能体

近日，阿里千问宣布向第三方Agent和Skill全面开放，允许所有企业在千问生态中运营专属的品牌Agent。这一举措标志着千问正从大语言模型加速向“超级Agent”个人助手战略升级…

AI
2026年6月4日
AI

阿里推出Qwen3.7-Plus多模态模型，视觉理解能力跻身全球前五

今日，阿里千问大模型团队发布博文，正式推出Qwen3.7-Plus模型。该模型定位为多模态交互混合智能体，是此前Qwen3.7的多模态升级版，旨在打造视觉与语言统一的智能体基座。 …

AI
2026年6月2日
AI

阿里达摩院玄铁 9 系列 RVA23 处理器官宣全球首发

5月25日，阿里达摩院玄铁团队今日宣布，玄铁旗下 9 系列高性能处理器已完成对 Android 16 操作系统的适配，并面向战略客户定向发布玄铁安卓平台。玄铁团队表示，作为全球首…

科技观察者
2026年5月25日
AI

Qwen3.7系列预览版上线，阿里云峰会即将正式发布

近日，阿里通义千问两款最新大模型——Qwen3.7-Max-Preview与Qwen3.7-Plus-Preview已率先登陆Qwen Chat及Arena AI（原LMArena…

AI
2026年5月19日
AI

谷歌Gemini神秘智能体Spark曝光：可清理邮件、控制浏览器

本周早些时候，谷歌公布了Gemini即将上线的新界面与自动化功能。而最新泄露信息显示，Gemini还将迎来一次真正接近“智能体”方向的重要升级——一个名为“Spark”的始终在线助…

Google
2026年5月16日
新闻

谷歌停运 Project Mariner，跨网页自动化技术整合至 AI Mode

5 月 7 日，据报道谷歌于 5 月 4 日挂出横幅公告，宣布停运实验性网页自动化项目 Project Mariner。该项目技术并未废弃，已整合至 Gemini Agent 和 …

Google
2026年5月7日
AI

通用汽车联手谷歌，为400万辆车推送Gemini AI助手

通用汽车近日正式宣布，将与谷歌展开深度合作，在全美范围内为旗下约400万辆汽车推送Gemini AI助手。这一部署将覆盖2022款及更新款的凯迪拉克、雪佛兰、别克以及GMC品牌车型…

李小白
2026年4月30日
AI

谷歌称75%新代码由AI生成，工程师转向审核角色

据《商业内幕》报道，谷歌当地时间周三披露，目前公司内部新编写的代码中已有四分之三由AI生成，随后再交由人类工程师审核。这一比例近年来持续攀升——截至2024年10月，该数字约为四分…

Google
2026年4月23日
AI

千问AI PPT重大升级：1-3分钟自动生成完整演示文稿

昨日下午，千问AI PPT宣布完成“PPT Agent”重大升级。通过采用全新的智能体架构，该工具成功实现了从内容构思、素材检索到视觉排版的全流程自动化，标志着AI在办公自动化领域…

AI
2026年4月23日
AI

谷歌DeepMind组建Gemini精英团队，布林亲自督战追赶Anthropic

为了在AI编程领域缩短与Anthropic旗下Claude模型的差距，谷歌DeepMind近期重组力量，成立了一支由Sebastian Borgeaud领导的Gemini精英团队，…

Google
2026年4月22日
AI

阿里千问开源Qwen3.6-35B-A3B：30亿激活参数实现顶尖智能体编程，超越前代

4月17日，据报道，继Qwen3.6-Plus发布之后，阿里千问大模型宣布开源Qwen3.6-35B-A3B——一个稀疏但能力出色的混合专家模型，总参数量为350亿，激活参数仅30…

野游栗
2026年4月17日
AI

Anthropic发布Claude Opus 4.7：编程能力再升级，两个月一次更新成新常态

4月17日，据报道，Anthropic发布了其最新人工智能模型Claude Opus 4.7。距上一次模型升级仅间隔两个月，与该公司此前的更新节奏保持一致。新版本主打高端软件开发能…

潮玩君
2026年4月17日
AI

谷歌推出Mac原生版Gemini应用，支持全局快捷键唤醒

谷歌昨日（4月15日）正式发布Mac原生版Gemini应用，采用100% Swift语言开发，针对苹果Mac设备进行了深度优化。用户按下Option+Space即可唤起迷你聊天窗…

Google
2026年4月16日
AI

谷歌 Gemini AI 解锁新技能：生成交互式图表和 3D 模型

4月11日，谷歌正不断强化 Gemini 的可视化能力，当地时间 4 月 9 日，Gemini 的最新更新带来了交互式 3D 模拟与模型功能，用户通过简单提示即可生成动态内容。据…

苹果派
2026年4月11日
AI

谷歌改进 Gemini 助手危机响应机制，可帮助用户一键拨打求助热线

4月8日，据报道，谷歌今天对 Gemini 进行一系列改进，更好应对用户提出的心理健康问题。据报道，目前 Gemini 在遇到与自杀、自残相关的危机信号时会出现“一键连接”模块，引…

Google
2026年4月8日
AI

千问AI眼镜接入蚂蚁GPASS，语音即可解锁共享单车并完成缴费

近日，千问AI眼镜正式接入蚂蚁集团旗下GPASS平台，上线了共享单车骑行与停车缴费等一系列“AI办事”功能。用户佩戴眼镜后只需通过语音唤醒，即可完成多项高频生活服务，全程无需手动操…

NEWS
2026年4月5日