26-07-03 12:29 微博认证:科技博主

阿里开源了一个读网页的page-agent.js。

GUI智能体存在于您的网页中,用自然语言控制网页界面。
由于读网页比较复杂,这个智能体的思路是从DOM结构入手。

使用场景:
SaaS AI Copilot — 几行代码为你的产品加上 AI 副驾驶,无需重写后端。
智能表单填写 — 把 20 次点击变成一句话。ERP、CRM、管理后台的最佳拍档。
无障碍增强 — 用自然语言让任何网页无障碍。 语音指令、屏幕阅读器,零门槛。
跨页面 Agent — 通过可选的 Chrome 扩展,让你自己的 Web Agent 跨标签页工作。
通过 MCP 为现有 Agent 加入浏览器控制能力。

项目地址:github.com/alibaba/page-agent

发布于 江苏