
谷歌昨日对其人工智能生态系统进行重大升级,正式将原生的“计算机使用”工具直接集成至Gemini 3.5 Flash模型中,全面取代此前的Gemini 2.5测试框架。这一举措标志着人工智能正从单纯的“对话者”加速演变为具备实际执行能力的“数字同事”,推动AI代理从概念走向落地。
通过Gemini API,开发者现可利用该模型的原生能力构建智能代理,这些代理不再依赖复杂的底层代码编写,而是像人类用户一样,通过感知和理解屏幕截图等视觉信息直观地导航应用程序,进而自动执行各种复杂桌面任务。这在办公自动化、软件测试及跨平台数据处理等场景中展现出巨大潜能,包括自动化浏览网站、填写长表单、点击界面按钮,以及高效处理桌面、移动和浏览器环境中的重复性数据收集工作。
为加速生态构建,谷歌已在Browserbase上开设实时演示空间,供开发者立即测试相关功能。面对赋予AI鼠标和键盘控制权所带来的安全挑战,如间接指令注入风险,谷歌强调已采取对抗训练来增强模型防御能力,同时推出两款企业级安全系统——允许企业设置软件,要求AI在执行敏感操作前获得人工批准,以及在检测到潜在攻击时自动冻结任务,多维度保障用户桌面安全。配合模型升级,谷歌同日发布Chrome 149稳定版,引入“从屏幕中选择”功能,用户可通过拖拽框选当前标签页中的图像或文本,瞬间将其添加为Gemini的提示语。
谷歌此次将原生工具集成至Gemini,不仅深化了AI与操作系统的结合,也预示着行业正从追求大模型参数规模转向实际的任务执行能力。
原创文章,作者:Google,如若转载,请注明出处:https://www.kejixun.co/article/756128.html