阿里千问视觉模型登顶空间推理榜领先Gemini与GPT

net • 2025年11月27日 13:50:00 • AI

在最新发布的SpatialBench榜单中，阿里千问视觉模型Qwen3-VL与Qwen2.5-VL以13.5分和12.9分的成绩包揽前两名，大幅领先Gemini 3.0 Pro Preview（9.6分）和GPT-5.1（7.5分），距离人类基线80分更近一步。SpatialBench作为专注2D/3D空间推理的权威榜单，涵盖电路分析、CAD工程等复杂任务，被誉为“具身智能试金石”，其评估结果被业界视为衡量AI空间理解能力的核心指标。

技术层面，Qwen3-VL通过旋转框输出与深度估计头实现3D检测升级，遮挡场景准确率提升18%，并能精准判断物体方位与视角变化；其创新性的视觉编程功能支持输入草图或短视频生成可运行的Python代码，实现“所见即所得”。此外，模型提供从2B到235B的多样化规模选择，在32项核心测试中平均超越Gemini 2.5-Pro 6.4分。

开源计划显示，Qwen2.5-VL已全量开源，而Qwen3-VL将于2025年第二季度发布权重与工具链，同步上线千问App供免费体验。阿里云透露，该模型已在物流机器人、AR装配等场景验证，空间定位误差小于2cm，并计划2026年推出“视觉-动作”端到端模型，为机器人提供实时视觉伺服能力。

此次成绩标志着中国AI在多模态领域的突破。行业评价指出，Qwen-VL系列在文档分析、中文图像理解等任务上已超越GPT-4V，与Gemini、GPT共同构成全球三强格局。

原创文章，作者：net，如若转载，请注明出处：https://www.kejixun.co/article/739715.html

AI Gemini Qwen2.5-VL Qwen3-VL 阿里

net认证作者

0 0

商业

OpenAI收购云环境初创公司Ona，为编程助手Codex打造安全部署基石

OpenAI昨日宣布收购初创公司Ona，后者专注于为AI智能体提供安全、预配置的云环境。双方未披露交易金额，Ona团队将整体加入OpenAI并参与Codex项目研发。这项收购旨在帮…

野游栗
3小时前
AI

阿里云发布Meoo CLI开源工具，一键打通本地AI编程到云端部署

针对本地AI编程项目上线繁琐的长期痛点，阿里云今日正式推出了一款名为Meoo（秒悟）的开源命令行工具Meoo CLI，旨在打通本地开发与云端部署之间的壁垒，帮助开发者快速将本地原型…

net
5小时前
AI

塔塔咨询为5万员工部署Claude模型，加速企业级AI规模化落地

在人工智能深度赋能企业转型的浪潮中，科技咨询巨头塔塔咨询服务公司（TCS）日前宣布，已与AI厂商Anthropic达成全球战略合作伙伴关系，计划通过全面引入Claude大模型，加速…

AI
6小时前
AI

OpenAI预计明年内上市，奥尔特曼称技术发展速度或影响IPO时机

据科技媒体The Information报道，萨姆·奥尔特曼在本周致员工的内部邮件中透露，OpenAI公司预计将在“明年内”上市，但具体时间表仍具有灵活性。此前，OpenAI已于6…

好奇宝宝
1天前
新闻

亚马逊升级购物搜索体验：AI图像生成器与按风格购物功能上线

随着人工智能技术在电商领域的渗透愈发深入，亚马逊近期通过一系列技术更新，进一步强化了其购物应用在视觉搜索和智能交互方面的能力，帮助消费者更高效地在海量商品中锁定心仪之选。回顾202…

校草
2天前
新闻

三星电子拟在韩国光州新建先进封装工厂，加码AI芯片产业链布局

据韩国经济日报援引业内消息人士报道，随着AI相关芯片需求持续爆发，三星电子正进一步强化自身产业链布局，计划在韩国光州建设一座先进半导体封装工厂。该投资计划有望于6月29日总统会谈期…

三星
2天前
AI

Anthropic推出两款Claude新模型，最强版本向公众开放

昨日（6月9日），人工智能公司Anthropic发布博文，宣布推出Claude Fable 5与Claude Mythos 5两款AI模型。其中，Claude Fable 5面向普…

AI
2天前
新闻

苹果WWDC26一文汇总：库克“最后一舞”，iOS 27携AI Siri登场

北京时间6月9日凌晨1点，苹果WWDC26全球开发者大会主题演讲如期举行。这不仅是苹果一年一度的系统盛宴，更是蒂姆·库克作为CEO主讲“最后一舞”——今年9月1日起，他将出任董事会…

NEWS
3天前
商业

日韩股市遭遇黑色星期一 AI板块重挫引泡沫担忧

6月8日，亚太市场迎来黑色星期一，日韩两大股指双双大幅收跌，其中日经225指数跌幅超过3%，韩国综合股价指数（KOSPI）则重挫近4%，而领跌的正是此前持续火爆的AI与半导体板块。…

商业头条
3天前
AI

谷歌 Gemini 语音助理曝漏洞，黑客利用特殊构造通知信息为 AI“下毒”

6月8日，安全公司 SafeBreach 披露，谷歌 Gemini 存在一种新型安全漏洞。黑客可通过 WhatsApp、短信等渠道发送特殊构造的通知信息，并将恶意指令隐藏在其他语言…

happy
4天前
AI

国家安全部发布AI中转站风险提示：用户隐私泄露与数据倒卖问题频发

国家安全部今日发布安全提示指出，随着人工智能应用需求迅猛增长，批量提供海内外大模型访问服务的“AI中转站”在国内迅速走红，但当前市场鱼龙混杂，部分站点运营资质缺失、安全防护薄弱，用…

若安丶
4天前
AI

苹果批准首个iMessage AI智能体，Poke可回邮件也能设提醒

据外媒Appleinsider昨日报道，苹果已批准Poke成为首个接入Apple Messages for Business平台的第三方AI智能体。Apple Messages f…

Apple
2026年6月5日
AI

Meta商务智能体全球上线，WhatsApp变身商家生产力工具

当地时间6月3日，Meta正式宣布旗下专为商家打造的客户支持AI机器人——现更名为“Meta商务智能体（Meta Business Agent）”，已在全球范围内的WhatsApp…

野游栗
2026年6月5日
AI

阿里千问全面开放第三方Agent，企业可打造专属品牌智能体

近日，阿里千问宣布向第三方Agent和Skill全面开放，允许所有企业在千问生态中运营专属的品牌Agent。这一举措标志着千问正从大语言模型加速向“超级Agent”个人助手战略升级…

AI
2026年6月4日
AI

OpenAI发布Codex工作插件，六大岗位技能AI正式“上岗”

北京时间周三凌晨，人工智能巨头OpenAI举行了以“AI上岗”为主题的发布会，正式推出面向股票投资、创意设计等岗位的Codex工作流插件，让AI深度介入企业日常任务。面对竞争对手在…

好奇宝宝
2026年6月4日
AI

OpenAI扩展Codex使用场景，新增六款岗位插件覆盖62个应用

今日，OpenAI发布公告，宣布进一步拓展AI智能体助手Codex的使用场景，新增6个岗位插件，总计覆盖62个应用和110项技能。Codex最初服务于软件开发，如今周活跃用户已超过…

AI
2026年6月3日
AI

微软发布全天候AI助理Scout，深度整合365生态

在今日举行的Build 2026开发者大会上，微软正式推出名为“Microsoft Scout”的全天候AI助理产品。这款代号为“龙虾（OpenClaw）”的新工具与Outlook…

小科同学
2026年6月3日
AI

微软在Build 2026大会上为Edge浏览器新增三项端侧AI能力

在今日开幕的Build 2026开发者大会上，微软宣布进一步扩展Edge浏览器的端侧AI能力，在去年推出的基于Phi-4-mini模型的写作辅助API基础上，新增了模型和API。本…

Microsoft
2026年6月3日
AI

阿里推出Qwen3.7-Plus多模态模型，视觉理解能力跻身全球前五

今日，阿里千问大模型团队发布博文，正式推出Qwen3.7-Plus模型。该模型定位为多模态交互混合智能体，是此前Qwen3.7的多模态升级版，旨在打造视觉与语言统一的智能体基座。 …

AI
2026年6月2日
新闻

Sesame推出对话式AI应用公测版，打破传统聊天机器人“一问一答”模式

由Oculus创始人及前VR团队核心成员联合创立的AI初创公司Sesame，于当地时间5月28日正式推出其对话式AI智能体的iOS应用公测版。该应用试图打破由ChatGPT等传统聊…

AI
2026年5月30日

发表回复

登录后才能评论

阿里千问视觉模型登顶空间推理榜 领先Gemini与GPT

相关推荐

发表回复

阿里千问视觉模型登顶空间推理榜领先Gemini与GPT