
智谱AI近日宣布推出并开源全球首个100B级视觉推理大模型GLM-4.5V,其总参数达1060亿,激活参数120亿,在魔搭社区与Hugging Face同步开放下载。作为通向AGI的重要探索,该模型在41个多模态榜单中综合性能达到开源模型最高水平(SOTA),覆盖图像、视频、文档解析及GUI交互等全场景任务。
基于新一代文本基座GLM-4.5-Air,该模型通过高效混合训练实现突破性能力:新增“思考模式”开关可灵活切换快速响应与深度推理,支持64K长上下文输入,并采用三维卷积与3D-RoPE编码技术强化视频与空间关系理解。实际测试中,它能精准定位图像目标、复刻网页结构,甚至从数十页复杂文档中提取关键信息。
为降低使用门槛,智谱同步开源桌面助手应用,可实时截屏处理代码辅助、游戏攻略等视觉任务。API服务已在BigModel.cn上线,提供2000万Tokens免费额度,调用成本低至输入2元/百万Tokens,响应速度达60-80 Tokens/秒。企业用户可借此快速部署高性价比的多模态解决方案,如工业质检、智能客服等场景。
技术层面,模型创新性融合视觉编码器、MLP适配器与语言解码器,通过双三次插值增强极端比例图像处理能力。分析人士认为,GLM-4.5V的开源将加速视觉推理技术产业化,推动AI向通用场景落地迈出关键一步。
原创文章,作者:AI,如若转载,请注明出处:https://www.kejixun.co/article/730981.html