‌谷歌推出Gemini 2.5计算机使用模型 专攻浏览器交互任务

‌谷歌推出Gemini 2.5计算机使用模型 专攻浏览器交互任务

谷歌近日预览了一款名为“Gemini 2.5计算机使用”的全新人工智能模型,该模型通过浏览器与网络交互,能够执行原本仅限人类操作的任务,例如填写表单或提交数据。其核心能力在于视觉理解与推理,可分析用户请求并完成相应操作,适用于无API接口的传统系统测试或自动化场景。此前,类似技术已应用于谷歌AI模式中的智能体功能及研究项目“Mariner”,例如根据食材清单自动添加商品至购物车。

此次发布恰逢OpenAI在开发者日推出ChatGPT新功能之际,两大科技巨头的竞争进一步白热化。与OpenAI的ChatGPT智能体或Anthropic的Claude模型不同,谷歌的Gemini 2.5仅限浏览器环境操作,不支持桌面系统控制。谷歌强调,该模型在网页和移动端基准测试中表现优于现有方案,目前支持13种操作,包括打开网页、输入文本及拖放元素等。演示视频显示,其可流畅完成2048游戏或浏览Hacker News等任务,但视频已加速3倍以展示效率。

开发者现可通过Google AI Studio和Vertex AI访问该模型,Browserbase平台也提供实时演示。尽管功能聚焦浏览器层级,谷歌明确表示其未优化操作系统控制能力,未来或需扩展应用场景以应对更复杂的自动化需求。这一发布标志着AI智能体在模拟人类交互领域迈出关键一步,但技术边界与安全性仍是后续关注重点。

原创文章,作者:Google,如若转载,请注明出处:https://www.kejixun.co/article/735494.html

Google的头像Google认证作者

相关推荐

发表回复

登录后才能评论