2025年10月8日凌晨,谷歌发布了Gemini 2.5计算机使用模型的预览版。该模型基于Gemini 2.5 Pro构建,是一款专注于实现AI智能体与用户界面(UI)交互的专业模型。
开发者可通过Google AI Studio和Vertex AI平台上的Gemini API调用其功能。其核心功能由Gemini API中新增的“计算机使用”工具提供,运作遵循迭代式“计算机使用循环”流程。模型会根据用户请求、屏幕截图及操作历史生成界面操作函数调用,如点击、输入等,客户端执行操作后将新截图和URL传回模型,如此循环直至任务完成或终止。
Gemini 2.5计算机使用模型支持页面导航、网页搜索、光标悬停等13种操作。它在多项网页与移动端控制基准测试中表现优异。例如在Browserbase的Online - Mind2Web测试中,准确率超70%,任务延迟约225毫秒,性能超越了包括OpenAI和Anthropic在内的主要竞争对手。
目前,该模型主要针对网页浏览器场景进行了优化,尚未支持桌面操作系统层级的控制,但在移动端界面控制测试中已展现出潜力。谷歌已将其部署至多个内部团队生产环境,如谷歌支付平台团队利用其修复测试脚本故障,成功率达60%。早期访问的外部测试者也给予了积极反馈,称其响应速度快,上下文解析可靠性高。
发布于 福建
