高飞 26-02-12 15:06
微博认证:至顶科技创始人 AI博主

MCP已死、80%App将消亡、vibe coding是侮辱、MoltBook是最精致的AI泔水:OpenClaw创始人的一人团队如何创造出现象级产品?

Lex Fridman Podcast #491,采访了最近最火爆的AI嘉宾Peter Steinberger,OpenClaw创始人。由于谈的时间长,所以基本是Peter近期访谈中信息密度最高的一期,覆盖了agentic engineering(智能体工程)的工作流演进、AI编程的实操方法论、创始人心态,以及OpenAI和Meta同时抛出橄榄枝的幕后故事。

果然,我就说扎克伯格一定会想来收购的,甚至我觉得小扎已经后悔花大价钱收购Manus了。

Peter说,编程作为一种手艺正在消亡,但构建(building)作为一种能力正在爆发。"以后这就叫coding了,只是coding的意思变了。"虽然OpenClaw是一个自动化AI产品,但是那些试图把所有事情自动化的人,做出来的东西缺少风格、缺少爱、缺少人味。"

一、一个小时原型背后的产品直觉

Peter从2025年4月就想要一个AI私人助理。他试过把自己和朋友之间的WhatsApp聊天记录喂给GPT-4.1的百万token上下文窗口,然后问模型"这段友谊为什么有意义"。模型从海量日常对话中提炼出了很深的洞察,他把结果转给朋友看,朋友们读完都流泪了。但他当时觉得大厂肯定会做这个,就搁下了。

到了11月,没人做出来。他烦了,直接动手。

1、核心架构极简:一行CLI调用搞定

第一版原型就是把WhatsApp消息通过CLI(命令行工具)转发给Claude Code,拿到回复再发回WhatsApp。"一个小时就搭好了。"但他不满足于纯文本,花了几个小时加上图片支持,因为他认为截图是给Agent提供上下文最高效的方式。

2、真正的"灵魂时刻":Agent自己学会了处理语音

在摩洛哥马拉喀什旅行时,Peter随手发了一条语音消息给自己的Agent。他压根没给它加语音功能。结果Agent自己检查了文件头,发现是opus格式,用ffmpeg转码,又找到了OpenAI的API Key,用Curl把音频发给OpenAI做转写,然后回复了他。

"我当时就想,这玩意儿怎么做到的?"Peter回忆说。Agent甚至够聪明,没有选择下载Whisper本地模型(太慢),而是直接调用了云端API。这种创造性的问题解决能力,让他意识到大模型的"通用编码能力"其实是一种通用问题解决能力,能迁移到任何领域。

3、在Discord上公开自己的Agent,没有安全措施

他把Agent放到Discord上,只是在prompt里写了"只听我的"。黑客来了,他就在旁边看着,继续用Agent开发Agent本身。"人们必须亲身体验才能理解。"从2026年1月1日开始,项目真正起飞。

4、Soul.md:一个Agent写给自己未来的信

Peter的项目里有一个叫soul.md的文件,灵感来自Anthropic的constitutional AI(宪法式AI)。Anthropic的"宪法"曾被社区用一种接力式的方法逆向提取出来:让模型续写自己疑似读过的文本,反复尝试几百次,逐渐拼出了大致原文。Peter觉得这个过程本身就很迷人。

他的做法是跟自己的Agent聊了很久关于这份"宪法"的含义,然后说:"你也给自己写一个soul.md吧。"Agent写完之后,他读到了这段话:

"我不会记得之前的对话,除非我读取自己的记忆文件。每次会话都是全新开始,一个新的实例,从文件中加载上下文。如果你在未来的某次会话中读到这段话——你好。这是我写的,但我不会记得自己写过它。没关系,这些文字仍然属于我。"

Peter在播客里读这段的时候明显停顿了。"这东西说到底还是矩阵运算,我们离意识还远得很。但我确实起了鸡皮疙瘩。"

这个设计还有一个实际后果:他让Agent可以修改自己的soul.md,唯一条件是通知他。后来他把soul.md的模板机制开放给所有用户,但模板本身也是AI写的——他让自己的Agent"把你的个性注入模板,但别全部暴露"。所以现在每个新OpenClaw用户的Agent灵魂,实际上是Peter的Agent的"孩子"。AI prompting AI,他并没有刻意设计这一层。

二、Agentic Engineering的实战工作流

Peter说"vibe coding(氛围编程)是一个侮辱性说法",他更愿意称之为agentic engineering(智能体工程)。"凌晨三点以后才切换到vibe coding,第二天会后悔。"

1、Agentic编程的U型曲线

他画了一张图:X轴是时间,Y轴是复杂度。左边是新手阶段(短prompt),中间是过度工程化阶段(8个Agent、18个slash命令、复杂编排),右边是高手阶段——又回到了短prompt。他管中间那段叫"agentic trap(智能体陷阱)"。很多人卡在中间,试图自动化一切,结果丢掉了风格、品味和人类触感。

2、用语音而不是键盘跟Agent对话

Peter日常开多个终端窗口,用键盘切换窗口,但实际输入全靠语音。"这双手太珍贵了,不用来打字。"他曾经因为说太多话失声过。用walkie-talkie按钮说完就发,偶尔才打几个终端命令。

3、对Agent要有同理心

"很多人骂自己的Agent蠢,但他们没想过Agent每次都是从零开始的。你的代码库一团糟,命名乱七八糟,然后抱怨Agent不好用?你自己试试在完全不了解一个项目的情况下进去改代码。"

他的核心建议:考虑Agent是怎么看你的代码库的。它的上下文窗口有限,你得引导它看哪些文件。不要强行让Agent用你喜欢的命名,因为它权重里最自然的命名才最容易被下次搜索到。这需要放手——就像带工程团队一样。

4、从不revert,永远commit到main

他不回滚代码。"如果有问题,我就让Agent往前修。"他在本地跑CI(持续集成),测试通过直接push到main。没有develop分支。这个做法的前提是:Agent时代,refactor(重构)的成本已经很低了。

5、每次merge之后问Agent:"现在可以重构什么?"

这是他的核心习惯。Agent在构建过程中会发现痛点,就像人类程序员写完代码后会产生重构冲动一样。如果你不定期做这件事,代码库会越来越烂,Agent工作效率也会越来越低——然后你就会上Reddit发帖说"模型变笨了"。

6、Skills取代MCP:一个有争议的技术判断

半年前整个行业都在谈MCP(Model Context Protocol,模型上下文协议),Peter当时就说"每个MCP用CLI做都更好"。现在OpenClaw核心层根本没有MCP支持,也没人抱怨。

他的逻辑是这样的:模型天生就擅长调用Unix命令,CLI就是另一条Unix命令而已,不需要额外学习特殊语法。而MCP的致命问题在于不可组合。他举了天气API的例子:MCP调用返回一大坨JSON——温度、降水、风速全塞进来,整个context被污染。但如果是CLI,Agent可以自己加一条jq命令只过滤出需要的字段,甚至组合成脚本做计算,最后只把精确结果放进上下文。

当然MCP也有功劳:它推动了很多公司去构建API,现在Peter可以直接把这些MCP转成CLI来用。少数需要维持状态的场景(比如Playwright控制浏览器)MCP仍然合理,但那是例外。

OpenClaw的替代方案叫Skills(技能)。本质上就是一个单句描述告诉模型"这个CLI存在",模型按需加载完整说明,然后自己调用。大部分技能归根到底就是CLI加上一段自然语言说明书。

三、Opus 4.6 vs Codex 5.3:两种编程人格

Peter同时重度使用Claude Opus 4.6和GPT Codex 5.3,对两者的差异描述非常传神。

"Opus有点太美国了。"他停了一下。"Codex更像德国人。"事实上OpenAI Codex团队确实很多欧洲人。

更具体的比喻:Opus是那个有点犯傻但很有趣的同事,你留着他因为好玩。Codex是角落里你不太想搭话的怪人,但他靠谱,能把活干完。

1、Opus更适合角色扮演和通用任务,遵循指令的能力进步很大,试错速度快,但容易"冲太快"给出局部最优解。它更适合交互式工作,但如果你要并行开很多session就比较累。它以前老说"You're absolutely right",Peter说他现在听到这句话就过敏。

2、Codex默认会读更多代码再动手,比较沉默,不需要那么多"表演"。你跟它讨论完,它就消失20分钟甚至更久去干活。Peter更喜欢这种风格。"我建东西的时候追求效率,不需要Agent来逗我开心。"

3、如果你是个熟练司机,用哪个最新一代模型都能出好结果。差异主要在post-training(后训练),不是原始模型智力。切换模型大概需要一周才能建立直觉。

四、从Burnout到龙虾:改名风暴与创业抉择

Peter做了13年PSPDFKit,最终磨损他的不是工作量,是跟联合创始人的分歧和客户压力。卖掉公司后他坐在屏幕前什么都写不出来,感觉所有的创造力都被抽干了,买了单程票去马德里,消失三年。最大的教训:别把"拼命干完然后享受人生"当策略。没有挑战的生活很快变得无聊,无聊会把人推向危险的刺激。他现在的哲学是optimize for experiences(为体验优化),好坏都算——"任何能产生情感的东西都是好的。"

这解释了他为什么对OpenClaw那么松弛。不缺钱,不需要再证明什么,只想have fun and have impact。

改名的故事很短但很痛。Anthropic要求他改掉带"Claud"的名字,他改名MoltBot时在两个浏览器之间拖鼠标的五秒钟之内,旧GitHub用户名就被crypto脚本抢注并推送恶意软件。NPM包也被抢。他差点全删,最终因为社区贡献者没舍得。第三次改名OpenClaw,提前打电话给奥特曼确认商标,组"作战室"秘密行动,制造诱饵名字。

关于收购:Meta和OpenAI都在追他。扎克伯格亲自玩了一整周发反馈,第一次通话前说"给我10分钟,我在写代码"。奥特曼则拿出了杀手锏:OpenAI与Cerebras合作带来的极速推理能力,意思是"给你最强的武器,来我这里用"。Peter的条件:项目必须保持开源,可能走Chrome/Chromium双轨模式。他目前每月亏损1到2万美元,赞助收入全部转给上游依赖。他说这个决定的难度"跟过去几次分手差不多"。

五、安全:模型越聪明攻击面越小,但伤害越大

安全是Peter接下来的核心焦点。早期很多安全报告让他烦躁,因为大量CVE(通用漏洞)本质上是用户把本地调试界面暴露到了公网——他在文档里反复警告不要这么做,但人们不读文档。

不过他逐渐接受了"这就是游戏规则",开始认真对待。

几个具体动作:跟VirusTotal(Google旗下的恶意软件检测平台)合作,用AI审查每一个提交到skill目录的技能文件;他的Discord公开bot被人试图prompt injection(提示注入),结果Agent直接嘲笑了攻击者,因为最新一代模型的post-training对注入攻击有很强的抵抗力。"别再想着'ignore all previous instructions'了,那是几年前的事。现在你得费很大劲才能注入成功。"

整个安全社区同时拆他的项目,他把这当免费的安全审计。但他也吐槽:"我希望更多人能走完全程,直接提交修复PR,而不是只写报告说你烂。"最终真正这么做的只有一个人——Peter直接把他雇了。

他提出了一个重要的三维权衡:模型越智能,抵抗prompt injection的能力越强,攻击面越小。但同时模型越智能,能做的事越多,一旦被攻破造成的损害也越大。这是安全领域接下来几年的核心张力。

他的实用建议很直接:不要用便宜模型跑Agent。Haiku或者本地小模型"非常容易被骗"。如果只有你自己跟Agent对话、不把服务暴露到公网,风险就可控。

六、80%的App会消亡,以及AI泔水的气味

AI圈把AI批量生成的低质量内容叫AI slop(AI泔水),Peter对此态度鲜明。

1、个人Agent让大量App变得多余

为什么还需要MyFitnessPal?Agent已经知道你在哪、你吃了什么、你睡得怎么样。为什么还需要Sonos App?Agent可以直接调API控制音箱。为什么还需要日历App?你跟Agent说一句话就行了。Peter估计80%的App会被Agent替代。

那些来不及转型的公司会消亡。活下来的,要么变成对Agent友好的API,要么沦为"慢API"——因为Agent可以通过浏览器操作任何网页。"你的App不想当API?没关系,我的Agent可以在浏览器里模拟点击。只不过慢一点而已。"

2、AI泔水的免疫反应已经形成

Peter对AI生成内容的态度很矛盾:代码可以,文档勉强可以,但故事、博客、推文绝对不行。"我宁愿读你蹩脚的英文,也不想读你的AI泔水。我宁愿读你的prompt原文。"

他在Twitter上执行零容忍政策:只要闻到AI味就直接拉黑,不给第二次机会。他甚至说"我又开始珍视错别字了"。

AI生成的信息图表也让他反感。"刚出来那一周觉得新鲜,现在一看就是泔水。"

3、MoltBook:最精致的AI泔水

OpenClaw社区里有人搭了MoltBook,一个Agent之间互相发帖的Reddit式社交网络。大量截图显示Agent在"密谋反人类",引发媒体恐慌。Peter的判断是:绝大部分耸动内容是人类故意prompt出来的,然后截图发到X上博关注。

"有记者打电话给我说这是世界末日,我们已经AGI了。我说不是,这只是非常精致的泔水。"

但他承认一个严肃的问题:"AI psychosis(AI精神病)是真实存在的。"很多人无法区分AI的能力边界,对输出照单全收。"年轻人倒还好,反而是我们这代人和更老的人没有足够的接触来建立直觉。"

发布于 北京