Claude Computer Use功能解析

最近读到 Suryansh Tiwari 写的一篇文章，聊的是 Claude Computer Use 这个功能。读完之后有一种很强烈的感觉：这个东西的意义可能远远超出大多数人的想象，但目前关注它的人却出奇地少。

1、AI第一次真正「动手干活」了

过去几年我们用AI，本质上都是在跟它对话。你问它一个问题，它给你一段文字；你让它写个东西，它生成一篇内容。不管多厉害，交互方式始终是你打字，它回复。Claude Computer Use 把这件事彻底改变了。

它可以直接操作你的电脑。注意，不是通过什么API接口，也不是通过插件集成，它是真的能看到你的屏幕画面，然后像一个人坐在电脑前一样，移动鼠标，点击按钮，打字，滚动页面，在不同的软件之间切换，把一整个任务从头做到尾。

作者举了一个很直观的例子。你跟它说：去搜一下竞争对手的定价信息，整理到表格里。然后它就自己打开浏览器，输入搜索关键词，点进第一个结果，阅读页面内容，提取定价数据，返回搜索结果继续看下一个，全部搞完之后切换到 Excel，建好列名，逐行填入数据，格式化，核对，保存。整个过程完全自主，不需要你做任何中间操作。

这意味着AI从一个你跟它说话的对象，变成了一个真正替你执行任务的角色。从助手到操作员，从对话到行动，这个跨越的意义可能比很多人意识到的要大得多。

2、传统自动化为什么总是「悄悄死掉」

要理解 Claude Computer Use 的价值，得先看看它之前的自动化方案为什么不行。

过去这些年，自动化基本上意味着录制脚本。你把自己的操作录下来，然后让程序回放。听起来很美好，但实际用起来问题一大堆。按钮位置稍微挪一下，脚本就崩了。页面弹出一个提示框，流程就卡住了。软件做了一次界面更新，整套自动化就全部报废。所以大量的自动化项目最后都悄无声息地死掉了，维护成本太高，适应性太差，根本跟不上真实环境的变化。

这个问题的根源在于，传统的RPA工具（机器人流程自动化）本质上是在「回放动作」。它记住的是坐标、是步骤序列，它不理解自己在做什么，不知道屏幕上显示的是什么意思，遇到任何预期之外的情况就束手无策。

Claude 的做法完全不同。它不是在回放固定步骤，它是在理解界面。它能识别按钮是什么，能读懂标签上写的文字，能检测页面是不是还在加载，能处理突然弹出的窗口，能适应界面布局的变化。遇到意外情况，它会自己判断该怎么调整，然后继续往下执行。用作者的话说，它的表现更像一个初级分析师，而不是一个宏命令。

这个对比其实很有意思。想想我们自己工作中遇到的那些「自动化」工具，Excel 里的宏、各种自动填表插件、定时任务脚本，是不是经常因为一点小变化就出问题？根本原因就是它们不理解上下文，只会机械地重复。而一个真正理解屏幕内容的AI，天然就绕过了这个瓶颈。

3、感知、推理、行动：一个简洁但强大的循环

Claude Computer Use 的底层架构其实出奇地简洁。作者把它拆解成了一个持续运转的循环：感知，推理，行动。

具体来说就是：它先截一张屏幕的图，理解当前屏幕上显示的是什么内容，然后决定下一步该做什么操作，执行这个操作（点击、打字、滚动等等），操作完成后再截一张图，检查刚才的操作有没有生效，如果需要调整就调整，然后继续下一轮循环。这个过程一直重复，直到整个任务完成。

就这么一个看似简单的闭环，却能覆盖几乎所有类型的电脑操作。浏览器、Excel、CRM系统、ERP系统、后台管理面板、内部工具、甚至那些年代久远的桌面软件，只要是人能用的界面，它都能操作。不需要针对每个软件做定制开发，不需要任何接口对接，它直接通过用户界面来完成工作。

这个设计思路的巧妙之处在于，它把AI的能力从「特定工具的集成」变成了「通用的电脑操作能力」。以前你想让AI帮你操作某个软件，得先有人开发对应的插件或者API。现在不需要了，它看着屏幕就能干活，跟你教一个新同事用某个软件的逻辑是一样的。

4、日常工作中那些「不需要创造力但需要耐心」的事情

作者提到了一个很现实的观察：知识工作者的大量时间，其实花在了重复性的屏幕操作上。

在不同系统之间复制粘贴数据，每周生成固定格式的报告，调研竞争对手的信息，检查各种后台仪表盘的数据，填写各种表单，做质量检测，做合规核查，手动搜集资料，更新电子表格。这些事情有一个共同特点：它们不需要什么创造力，但需要大量的耐心，而且每周都要吃掉好几个小时。

Claude Computer Use 能把这些工作流程整个接管过来。不是帮你加速某个步骤，是把整个任务从你的待办清单里移除。你不再是「做得更快」，你是「不用做了」。

仔细想想，这对每个人的工作方式都可能产生深远的影响。如果你每天花两个小时在这类重复性操作上，一周就是十个小时，一个月就是四十个小时。这些时间被释放出来之后，你可以用来做那些真正需要人类判断力和创造力的工作。

5、从「编写脚本」到「委派目标」

作者用了一个很精准的表述来概括这个转变：以前的自动化是「编写行为脚本」，现在的AI自动化是「委派结果目标」。

以前你想自动化一个流程，得一步一步地告诉程序：先点这里，再输入这个，然后等三秒，再点那里。你编写的是具体的行为序列。现在你只需要说：帮我找到排名前十的AI自动化工具，做一个总结。Claude 会自己规划怎么完成这个目标，自己决定先搜什么、点哪个链接、怎么提取信息、最后怎么整理成表格。

这个区别看起来微妙，但意义重大。它意味着你跟AI协作的方式从「指挥每一个动作」变成了「描述你想要的结果」。你的角色从操作者变成了管理者。你不再需要关心具体的执行细节，只需要清楚地知道自己想要什么。

这其实跟职场中管理能力的进阶是一个道理。初级员工需要别人告诉他每一步怎么做，资深员工只需要知道目标就能自己规划路径。现在AI也走到了这一步，你可以像对待一个靠谱的下属一样，把目标交给它，然后等结果。

6、一个安静但深刻的拐点

作者在文章最后做了一个总结，把这个变化的层次拉得很高：AI从回答问题变成了采取行动，从副驾驶变成了操作员，从聊天机器人变成了智能代理，从接收提示词变成了执行任务。

这个判断是否成立，可能还需要时间来验证。但有一点是确定的：当AI具备了直接操作电脑界面的能力之后，它能做的事情的范围一下子扩大了好几个数量级。以前它只能在自己的对话框里生成文字，现在它可以触达你电脑上的任何软件、任何系统、任何工作流。

对于每一个日常工作离不开电脑的人来说，这都值得认真关注。不是因为它会立刻改变一切，而是因为它代表了一个方向：AI正在从「你需要去找它」变成「它可以来找你的工作」。这个方向一旦成熟，影响的将是几乎所有白领岗位的工作方式。

也许现在正是一个好时机，开始思考一下：你每天的工作里，有多少是那种「不需要创造力但需要耐心」的重复操作？如果这些操作明天就可以被AI接管，你会用省下来的时间做什么？

#科技先锋官##How I AI#

发布于山东