阑夕 26-04-27 11:16
微博认证:逐鹿网(www.zhulu.com)创始人 长文原创作者 2024微博年度新知博主

AI 产品在过去三年经历了三次身份切换。

两年前 AI 还是聊天机器人,你问它答,聊完即走,什么都不留下。Copilot 算一个进步,AI 嵌进了现有工具里帮你写草稿、做总结,但主语始终是你。

变化是最近一年的事。Claude Code 让用户坐在终端前面看 Agent 干活,它接管整个代码仓库,自己读代码、自己跑测试、自己提交修改,人只管审批。OpenClaw 把 Agent 能调用的工具从几种变成几百种,一个开放的插件生态,接进去就能用。Hermes Agent 再往前一步,还能自主进化。

主语变了。人不再是那个主要操作者,一切都是 vibe coding、vide design、vide marketing。

这就逼出了一个问题:Agent 在哪里工作?

现在的情况是,Agent被塞进了为人类设计的工具里。它通过Slack、企微发消息,在Notion里编辑文档,在飞书里拉数据。各家也在补救,开CLI,Notion 上了 Custom Agents,都想让 Agent 绕过人的界面直接干活。

调用的问题确实缓解了,但还是很难解决根本问题。一个 Agent 处理完一份客户记录,另一个 Agent 不会知道这件事发生了。它们之间没有信息通道。要串起来,得靠人写自动化脚本,或者干脆靠人转达。CLI 给了 Agent 一双手,但没给它们一间共用的办公室。

还有一层更基础的问题:格式。传统工具默认人是操作者,文件格式是 .docx 和 .xlsx,适合人阅读和修改。但它们本质上是压缩包,里面是一堆 XML 文件。要读取内容,Agent 得先解压,再解析复杂的 XML 结构,才能提取内容。Markdown、CSV、HTML 不一样,打开就是文本,Agent 直接读写。LLM 本身就是吃这些纯文本格式训练出来的,对 Agent 来说这才是母语。

在一栋为人盖的楼里给 Agent 腾房间,能凑合住。现有软件的所有预设都建立在人类是操作者这个假设上。但Agent原生的软件假设Agent是操作者,人类是监督者。

这是地基的问题。

http://t.cn/AXxBt2J1

发布于 北京