2025年10月8日凌晨，谷歌发布了Gemini 2.5计算机使用模型的预览版。该模型基于Gemini 2.5 Pro构建，是一款专注于实现AI智能体与用户界面（UI）交互的专业模型。开发者可通过Google AI Studio和Vertex AI平台上的Gemini API调用其功能。其核心功能由Gemini API中新增的“计算机使用”工具提供，运作

2025年10月8日凌晨，谷歌发布了Gemini 2.5计算机使用模型的预览版。该模型基于Gemini 2.5 Pro构建，是一款专注于实现AI智能体与用户界面（UI）交互的专业模型。

开发者可通过Google AI Studio和Vertex AI平台上的Gemini API调用其功能。其核心功能由Gemini API中新增的“计算机使用”工具提供，运作遵循迭代式“计算机使用循环”流程。模型会根据用户请求、屏幕截图及操作历史生成界面操作函数调用，如点击、输入等，客户端执行操作后将新截图和URL传回模型，如此循环直至任务完成或终止。

Gemini 2.5计算机使用模型支持页面导航、网页搜索、光标悬停等13种操作。它在多项网页与移动端控制基准测试中表现优异。例如在Browserbase的Online - Mind2Web测试中，准确率超70%，任务延迟约225毫秒，性能超越了包括OpenAI和Anthropic在内的主要竞争对手。

目前，该模型主要针对网页浏览器场景进行了优化，尚未支持桌面操作系统层级的控制，但在移动端界面控制测试中已展现出潜力。谷歌已将其部署至多个内部团队生产环境，如谷歌支付平台团队利用其修复测试脚本故障，成功率达60%。早期访问的外部测试者也给予了积极反馈，称其响应速度快，上下文解析可靠性高。

发布于福建