爱可可-爱生活
26-06-25 08:16 微博认证:AI博主 2025微博新锐新知博主

【Google的暴力美学:让AI像人一样“硬控”电脑】

Gemini 3.5 Flash正式内置了Computer Use功能。简单说,AI不再只是给你写代码或聊天,而是能直接盯着你的屏幕,像真人一样移动鼠标、点击图标、操作各类App。

这件事的底层逻辑在于:视觉智能正在对冲工程壁垒。很多人质疑通过截图和模拟点击来操作电脑既低效又不安全,认为API或自动化脚本才是正道。但现实是,全世界有无数没有API的老旧系统和封闭软件,重构它们的成本是以十年和亿万美金计的。Google选择让AI学会“看图说话”并“上手操作”,本质上是绕过了繁琐的接口开发,用一种近乎“暴力”的通用方式实现了跨平台的自动化。

从实战反馈看,Gemini Flash的优势在于极高的性价比和速度。虽然它偶尔会像个闹脾气的员工一样因为“超出错误阈值”而罢工,或者被过度敏感的Guardrails挡住,但在Agent这种需要高频尝试、容忍失败的场景下,便宜且快速的Token才是硬道理。

这并非AI的“iPhone时刻”,更像是大规模自动化前夜的实用主义补丁。它解决的不是优雅,而是那些API触达不到的脏活累活。

blog.google/innovation-and-ai/models-and-research/gemini-models/introducing-computer-use-gemini-3-5-flash/

#人工智能##AI创造营##Gemini##自动驾驶#

发布于 北京