‌智谱开源全球最强视觉推理模型GLM-4.5V,多模态AI迈入新阶段

‌智谱开源全球最强视觉推理模型GLM-4.5V,多模态AI迈入新阶段

智谱AI近日宣布推出并开源全球首个100B级视觉推理大模型‌GLM-4.5V‌,其总参数达1060亿,激活参数120亿,在魔搭社区与Hugging Face同步开放下载。作为通向AGI的重要探索,该模型在41个多模态榜单中综合性能达到开源模型最高水平(SOTA),覆盖图像、视频、文档解析及GUI交互等全场景任务。

基于新一代文本基座‌GLM-4.5-Air‌,该模型通过高效混合训练实现突破性能力:新增“思考模式”开关可灵活切换快速响应与深度推理,支持64K长上下文输入,并采用三维卷积与‌3D-RoPE编码‌技术强化视频与空间关系理解。实际测试中,它能精准定位图像目标、复刻网页结构,甚至从数十页复杂文档中提取关键信息。

为降低使用门槛,智谱同步开源‌桌面助手应用‌,可实时截屏处理代码辅助、游戏攻略等视觉任务。API服务已在‌BigModel.cn‌上线,提供2000万Tokens免费额度,调用成本低至输入2元/百万Tokens,响应速度达60-80 Tokens/秒。企业用户可借此快速部署高性价比的多模态解决方案,如工业质检、智能客服等场景。

技术层面,模型创新性融合视觉编码器、MLP适配器与语言解码器,通过双三次插值增强极端比例图像处理能力。分析人士认为,GLM-4.5V的开源将加速视觉推理技术产业化,推动AI向通用场景落地迈出关键一步。

原创文章,作者:AI,如若转载,请注明出处:https://www.kejixun.co/article/730981.html

AI的头像AI认证作者

相关推荐

发表回复

登录后才能评论