AI产品三次身份切换

AI 产品在过去三年经历了三次身份切换。

两年前 AI 还是聊天机器人，你问它答，聊完即走，什么都不留下。Copilot 算一个进步，AI 嵌进了现有工具里帮你写草稿、做总结，但主语始终是你。

变化是最近一年的事。Claude Code 让用户坐在终端前面看 Agent 干活，它接管整个代码仓库，自己读代码、自己跑测试、自己提交修改，人只管审批。OpenClaw 把 Agent 能调用的工具从几种变成几百种，一个开放的插件生态，接进去就能用。Hermes Agent 再往前一步，还能自主进化。

主语变了。人不再是那个主要操作者，一切都是 vibe coding、vide design、vide marketing。

这就逼出了一个问题：Agent 在哪里工作？

现在的情况是，Agent被塞进了为人类设计的工具里。它通过Slack、企微发消息，在Notion里编辑文档，在飞书里拉数据。各家也在补救，开CLI，Notion 上了 Custom Agents，都想让 Agent 绕过人的界面直接干活。

调用的问题确实缓解了，但还是很难解决根本问题。一个 Agent 处理完一份客户记录，另一个 Agent 不会知道这件事发生了。它们之间没有信息通道。要串起来，得靠人写自动化脚本，或者干脆靠人转达。CLI 给了 Agent 一双手，但没给它们一间共用的办公室。

还有一层更基础的问题：格式。传统工具默认人是操作者，文件格式是 .docx 和 .xlsx，适合人阅读和修改。但它们本质上是压缩包，里面是一堆 XML 文件。要读取内容，Agent 得先解压，再解析复杂的 XML 结构，才能提取内容。Markdown、CSV、HTML 不一样，打开就是文本，Agent 直接读写。LLM 本身就是吃这些纯文本格式训练出来的，对 Agent 来说这才是母语。

在一栋为人盖的楼里给 Agent 腾房间，能凑合住。现有软件的所有预设都建立在人类是操作者这个假设上。但Agent原生的软件假设Agent是操作者，人类是监督者。

这是地基的问题。

http://t.cn/AXxBt2J1

发布于北京