阿里千问视觉模型登顶空间推理榜 领先Gemini与GPT

阿里千问视觉模型登顶空间推理榜 领先Gemini与GPT

在最新发布的SpatialBench榜单中,阿里千问视觉模型Qwen3-VLQwen2.5-VL以13.5分和12.9分的成绩包揽前两名,大幅领先Gemini 3.0 Pro Preview(9.6分)和GPT-5.1(7.5分),距离人类基线80分更近一步。SpatialBench作为专注2D/3D空间推理的权威榜单,涵盖电路分析、CAD工程等复杂任务,被誉为“具身智能试金石”,其评估结果被业界视为衡量AI空间理解能力的核心指标。

技术层面,Qwen3-VL通过旋转框输出与深度估计头实现3D检测升级,遮挡场景准确率提升18%,并能精准判断物体方位与视角变化;其创新性的视觉编程功能支持输入草图或短视频生成可运行的Python代码,实现“所见即所得”。此外,模型提供从2B到235B的多样化规模选择,在32项核心测试中平均超越Gemini 2.5-Pro 6.4分。

开源计划显示,Qwen2.5-VL已全量开源,而Qwen3-VL将于2025年第二季度发布权重与工具链,同步上线千问App供免费体验。阿里云透露,该模型已在物流机器人、AR装配等场景验证,空间定位误差小于2cm,并计划2026年推出“视觉-动作”端到端模型,为机器人提供实时视觉伺服能力。

此次成绩标志着中国AI在多模态领域的突破。行业评价指出,Qwen-VL系列在文档分析、中文图像理解等任务上已超越GPT-4V,与Gemini、GPT共同构成全球三强格局。

原创文章,作者:net,如若转载,请注明出处:https://www.kejixun.co/article/739715.html

net的头像net认证作者

相关推荐

发表回复

登录后才能评论