李想预测AI产品突破方向

李想刚发了条朋友圈，盘点 2025 到 2026 年初最具突破性的 AI 产品：Claude Code、豆包手机、Manus、OpenClaw、MoltBook、Chrome Gemini。

六个产品看着不相干，但背后都是一个问题：怎么让 AI 真正帮你干活？

订机票、发微信、填表格，你都想交给 AI。问题是每个 App 都是独立王国，不会把数据和操作权限开放给外人。你想要一个贾维斯，但贾维斯走到哪都吃闭门羹。

豆包手机、OpenClaw、Chrome Gemini 这三个产品选了同一条路绕过去：GUI Agent。

后门不开就走前门，让 AI 直接帮你看屏幕、模拟点击来操作你的设备。

【1】前门怎么走？

传统思路是走后门：让 App 开放接口，AI 直接调用。但现实是大多数 App 根本不开放。

GUI Agent 反过来：AI 在用户授权下帮你看屏幕，识别按钮和输入框在哪，模拟人的手指去点击、滑动、输入。就像你开视频让朋友远程帮你操作手机，只不过这个“朋友”是 AI，而且直接上手帮你干。如果是你自己授权，加上一些关键环节的确认，相对还是比较安全的。

【2】三个产品，同一个思路，落点不同

Chrome Gemini：浏览器里的智能体

Gemini in Chrome 不只帮你总结网页，它还有个功能叫“自动浏览”（auto browse）：你说需求，它直接在网页里帮你跑流程，比如预约、填表、规划行程。

浏览器场景有个天然优势：网页不是一张图片，背后有结构信息，哪里是按钮、哪里是输入框，AI 能“看”得更准。所以这类能力会先在浏览器里成熟，再往系统级扩展。

豆包手机助手：手机里的智能体

字节跳动的豆包手机助手就是 GUI Agent 在手机上的打法：读屏幕内容，模拟点击、滑动，帮你跨 App 完成任务。

OpenClaw：电脑里的智能体

OpenClaw 这波火，很大程度因为“真的能干活”。它强调本地运行，能连接你常用的即时通信工具，像个住在电脑里的助手，在浏览器环境里帮你点网页、填表单、跑流程。它把这层能力封装得更好用了。

【3】GUI Agent 其实是个不错的技术路径

国内厂商围绕 GUI Agent 吵得凶：激进、危险、绕不过生态。但 OpenClaw 的火爆说明用户不想再等了，哪怕有风险也要试试。

矛盾很简单：用户想“现在就用、能跨一堆软件”，App 厂商想“别绕过我的地盘”。

GUI Agent 是个现实的折中方案。如果每个 App 都愿意开放接口，当然最好，但这需要时间，很多小 App、小网站根本不会配合。GUI Agent 绕过了这个问题，只要用户授权，能“看屏幕 + 点屏幕”，什么 App 都能操作，覆盖面广，上手快。

所以未来大概率是混合模式：重要的、高频的事走正规接口，长尾的、没人配合的事用 GUI Agent 兜底。

发布于美国