最近读到 Suryansh Tiwari 写的一篇文章,聊的是 Claude Computer Use 这个功能。读完之后有一种很强烈的感觉:这个东西的意义可能远远超出大多数人的想象,但目前关注它的人却出奇地少。
1、AI第一次真正「动手干活」了
过去几年我们用AI,本质上都是在跟它对话。你问它一个问题,它给你一段文字;你让它写个东西,它生成一篇内容。不管多厉害,交互方式始终是你打字,它回复。Claude Computer Use 把这件事彻底改变了。
它可以直接操作你的电脑。注意,不是通过什么API接口,也不是通过插件集成,它是真的能看到你的屏幕画面,然后像一个人坐在电脑前一样,移动鼠标,点击按钮,打字,滚动页面,在不同的软件之间切换,把一整个任务从头做到尾。
作者举了一个很直观的例子。你跟它说:去搜一下竞争对手的定价信息,整理到表格里。然后它就自己打开浏览器,输入搜索关键词,点进第一个结果,阅读页面内容,提取定价数据,返回搜索结果继续看下一个,全部搞完之后切换到 Excel,建好列名,逐行填入数据,格式化,核对,保存。整个过程完全自主,不需要你做任何中间操作。
这意味着AI从一个你跟它说话的对象,变成了一个真正替你执行任务的角色。从助手到操作员,从对话到行动,这个跨越的意义可能比很多人意识到的要大得多。
2、传统自动化为什么总是「悄悄死掉」
要理解 Claude Computer Use 的价值,得先看看它之前的自动化方案为什么不行。
过去这些年,自动化基本上意味着录制脚本。你把自己的操作录下来,然后让程序回放。听起来很美好,但实际用起来问题一大堆。按钮位置稍微挪一下,脚本就崩了。页面弹出一个提示框,流程就卡住了。软件做了一次界面更新,整套自动化就全部报废。所以大量的自动化项目最后都悄无声息地死掉了,维护成本太高,适应性太差,根本跟不上真实环境的变化。
这个问题的根源在于,传统的RPA工具(机器人流程自动化)本质上是在「回放动作」。它记住的是坐标、是步骤序列,它不理解自己在做什么,不知道屏幕上显示的是什么意思,遇到任何预期之外的情况就束手无策。
Claude 的做法完全不同。它不是在回放固定步骤,它是在理解界面。它能识别按钮是什么,能读懂标签上写的文字,能检测页面是不是还在加载,能处理突然弹出的窗口,能适应界面布局的变化。遇到意外情况,它会自己判断该怎么调整,然后继续往下执行。用作者的话说,它的表现更像一个初级分析师,而不是一个宏命令。
这个对比其实很有意思。想想我们自己工作中遇到的那些「自动化」工具,Excel 里的宏、各种自动填表插件、定时任务脚本,是不是经常因为一点小变化就出问题?根本原因就是它们不理解上下文,只会机械地重复。而一个真正理解屏幕内容的AI,天然就绕过了这个瓶颈。
3、感知、推理、行动:一个简洁但强大的循环
Claude Computer Use 的底层架构其实出奇地简洁。作者把它拆解成了一个持续运转的循环:感知,推理,行动。
具体来说就是:它先截一张屏幕的图,理解当前屏幕上显示的是什么内容,然后决定下一步该做什么操作,执行这个操作(点击、打字、滚动等等),操作完成后再截一张图,检查刚才的操作有没有生效,如果需要调整就调整,然后继续下一轮循环。这个过程一直重复,直到整个任务完成。
就这么一个看似简单的闭环,却能覆盖几乎所有类型的电脑操作。浏览器、Excel、CRM系统、ERP系统、后台管理面板、内部工具、甚至那些年代久远的桌面软件,只要是人能用的界面,它都能操作。不需要针对每个软件做定制开发,不需要任何接口对接,它直接通过用户界面来完成工作。
这个设计思路的巧妙之处在于,它把AI的能力从「特定工具的集成」变成了「通用的电脑操作能力」。以前你想让AI帮你操作某个软件,得先有人开发对应的插件或者API。现在不需要了,它看着屏幕就能干活,跟你教一个新同事用某个软件的逻辑是一样的。
4、日常工作中那些「不需要创造力但需要耐心」的事情
作者提到了一个很现实的观察:知识工作者的大量时间,其实花在了重复性的屏幕操作上。
在不同系统之间复制粘贴数据,每周生成固定格式的报告,调研竞争对手的信息,检查各种后台仪表盘的数据,填写各种表单,做质量检测,做合规核查,手动搜集资料,更新电子表格。这些事情有一个共同特点:它们不需要什么创造力,但需要大量的耐心,而且每周都要吃掉好几个小时。
Claude Computer Use 能把这些工作流程整个接管过来。不是帮你加速某个步骤,是把整个任务从你的待办清单里移除。你不再是「做得更快」,你是「不用做了」。
仔细想想,这对每个人的工作方式都可能产生深远的影响。如果你每天花两个小时在这类重复性操作上,一周就是十个小时,一个月就是四十个小时。这些时间被释放出来之后,你可以用来做那些真正需要人类判断力和创造力的工作。
5、从「编写脚本」到「委派目标」
作者用了一个很精准的表述来概括这个转变:以前的自动化是「编写行为脚本」,现在的AI自动化是「委派结果目标」。
以前你想自动化一个流程,得一步一步地告诉程序:先点这里,再输入这个,然后等三秒,再点那里。你编写的是具体的行为序列。现在你只需要说:帮我找到排名前十的AI自动化工具,做一个总结。Claude 会自己规划怎么完成这个目标,自己决定先搜什么、点哪个链接、怎么提取信息、最后怎么整理成表格。
这个区别看起来微妙,但意义重大。它意味着你跟AI协作的方式从「指挥每一个动作」变成了「描述你想要的结果」。你的角色从操作者变成了管理者。你不再需要关心具体的执行细节,只需要清楚地知道自己想要什么。
这其实跟职场中管理能力的进阶是一个道理。初级员工需要别人告诉他每一步怎么做,资深员工只需要知道目标就能自己规划路径。现在AI也走到了这一步,你可以像对待一个靠谱的下属一样,把目标交给它,然后等结果。
6、一个安静但深刻的拐点
作者在文章最后做了一个总结,把这个变化的层次拉得很高:AI从回答问题变成了采取行动,从副驾驶变成了操作员,从聊天机器人变成了智能代理,从接收提示词变成了执行任务。
这个判断是否成立,可能还需要时间来验证。但有一点是确定的:当AI具备了直接操作电脑界面的能力之后,它能做的事情的范围一下子扩大了好几个数量级。以前它只能在自己的对话框里生成文字,现在它可以触达你电脑上的任何软件、任何系统、任何工作流。
对于每一个日常工作离不开电脑的人来说,这都值得认真关注。不是因为它会立刻改变一切,而是因为它代表了一个方向:AI正在从「你需要去找它」变成「它可以来找你的工作」。这个方向一旦成熟,影响的将是几乎所有白领岗位的工作方式。
也许现在正是一个好时机,开始思考一下:你每天的工作里,有多少是那种「不需要创造力但需要耐心」的重复操作?如果这些操作明天就可以被AI接管,你会用省下来的时间做什么?
#科技先锋官##How I AI#
