OpenClaw是通过数据接口和命令行来执行任务,gpt5.4是通过视觉方案识别电脑屏幕
打个比方,你让他们关闭桌面上的浏览器,OpenClaw会通过任务管理器查询目前桌面正处于打开的浏览器程序有哪些,然后用windows命令taskkill /im <浏览器进程名> /f来关闭程序。
而gpt5.4是视觉读取电脑桌面和任务栏里有哪些浏览器程序,然后找到浏览器右上角的X图标,把鼠标移动过去,点击鼠标左键,来关闭浏览器。
前者执行起来更高效,但是一般人不会盯着后台代码,一旦有恶意代码或者执行出错,他可能或关闭你所有程序,也可能一不小心把关闭理解成删除,把你所有浏览器删除。
后者虽然执行起来慢,但是执行过程更加可视化,更安全和安心一些,至少他在格式化和删除你硬盘文件的时候,你是能看到他操作的,而不是一个命令就在后台执行可怕的事情了。gpt5.4的执行方式,就有点类似于各种二游的自动工具,碧蓝档案的BAAH、原神的BetterGI、鸣潮的okww,一些自动音游工具,以及其他基于图片识别的工具。
个人比较喜欢后者这样的工具,现在gpt5.4推出了这样的功能,我想后续国产AI应该也会跟进。
两者都是把电脑权限交给AI工具控制,风险还是挺高的,尤其是网站购物记录、各种网站密码、银行卡密码、个人信息可能都会被读取甚至上传,但是后者的屏幕识别方案的话,加以限制之后,感觉会相对安全一些?简单来说如果你电脑里有一个txt文档记录了你的网站密码和支付密码,那么OpenClaw只需要一行命令就可以读取,并且在运行代码里看着并不明显,但是视觉方案的AI需要打开这个txt文本才能读取里面的内容。一般来说我们打算执行一个循环的方案,第一遍都会盯着看的,这样比较容易察觉到。
发布于 黑龙江
