网页上那些一遍遍点的活,填表、查信息、把一份清单挨个加进购物车,是真的耗人。有个开源项目就是干这个的:让 AI 自己打开浏览器,替你把这类重复的网页操作做掉。
它叫 browser-use,作者给自己的定位是「让网站对 AI agent(智能体)可用」。说人话,就是你给 AI 一句话任务,它自己去打开网页、在页面上找到能点的按钮、点击、在表单里填字、读上面的信息——你不用再坐在那儿一格一格地填。
我第一次看到的时候愣了一下。我们用 AI 大多还停在「跟它聊天、让它写东西」,可这个东西是让 AI 直接动手操作浏览器,相当于请了个人替你坐在电脑前点鼠标。
它官方给的几个例子,基本就是日常里最烦的那几样活。
一个是填工作申请表:你扔给它简历,让它「用我的信息把这份申请表填了」,它自己去网页上一栏一栏填。一个是网购前置动作:给它一份清单,让它「把这些东西加进我的购物车」,它挨个加。还有跨网站帮你找东西,比如「帮我找装一台台式机要的配件」,它自己在几个页面之间翻。归到一起,就是填表、加购物车、查信息抓数据、订票前的信息收集这类——你能说清规则、但做起来纯靠手的机械活。
它背后接的是大模型。你可以用它自家优化过的模型,也可以接谷歌的 Gemini、Anthropic 的 Claude,甚至用能在自己电脑上跑的本地模型。谁家的 AI 你顺手就用谁的,没绑死在一家上。
这项目是2024年10月才开的,到现在攒了约9.7万颗 star,接近10万,最近还在更新。开源圈里这热度算很猛了。协议是 MIT,免费,能自己拿来折腾。
但有它不是装上就能傻瓜式用的那种。
你得装 Python(3.11以上的版本)、装一个 Chromium 浏览器、再写几行代码、配一个大模型的密钥,它才能跑起来。门槛不算高,可也不是零,大概是「会一点代码、或者愿意花个把小时折腾环境」的人能上手。完全不碰技术的朋友,光这几步配置就够卡一阵了。
还有更要紧的一点:网页自动化天生会出错。
页面改个版、某个按钮 AI 没认准、碰上验证码或者要登录,它就可能卡住或者点错。这不是这个项目做得不好,是这一类活本身就这样。所以你得把指令给清楚,也得在旁边盯着点,别指望它全自动帮你把一切都办妥、还回回靠谱(这点我自己用下来也没敢撒手让它跑)。它官方其实也明白这个,把更强的反爬、验证码、代理那些能力放进了付费的云服务里,开源这版更适合自己折腾、自己搭着用。
它能省的事是实打实的——尤其是那种你每周都要重复做、规则又固定的网页操作。
想看看的话,它叫 browser-use,开源的,GitHub 上就有。先拿个小任务试一把,剩下的边用边摸。
#马力的AI知识分享#
#马力的AI开源项目分享#
