Garry Tan构建AI系统

Garry Tan 是 Y Combinator 的 CEO，全球最顶级的创业孵化器掌门人，每年帮助数千个创业者把想法变成真正赚钱的公司。按理说，这个位置的人应该把时间花在战略、社交和管理上。但最近他写了一篇长文，解释一件让很多人困惑的事：为什么他每天凌晨2点还在写代码。

他的回答很直接：过去5个月，AI 让他重新变成了一个 builder。

这句话的分量，你得放在他的身份背景下去理解。Garry Tan 早年是工程师出身，后来做了投资人，再后来成了 YC 的 CEO。从动手造东西到管理别人造东西，这条路他走了十几年。但现在，AI 工具强大到了一个临界点，让他觉得自己又可以亲手造东西了。而且造的不是玩具项目，是真正能产生复利效应的系统。

更重要的是，他把整套系统全部开源了。

1、把 AI 当操作系统，不是当聊天窗口

Garry Tan 这篇文章最核心的一个观念转变是：大多数人用 AI 的方式，还停留在「打开对话框，问一个问题，拿一个答案」的阶段。这就像你有一台电脑，但只用它来查字典。

他的做法完全不同。他把 AI 当成一个操作系统来构建，这个系统有自己的架构、有自己的记忆、有自己的工作流程，而且每天都在自动变得更强。

他给这个架构起了一个很精炼的名字：薄路由，厚技能，厚数据。

路由层（他用的是 OpenClaw 和 Hermes Agent）非常薄，只有几千行代码，功能就一个：接收他的消息，判断该调用哪个技能，然后分发出去。它本身什么都不懂，不懂书，不懂会议，不懂创业者。它只负责转发。

技能层非常厚。他现在有100多个 skill 文件，每个都是一份独立的 markdown 文档，里面写着处理某一类任务的详细指令。比如怎么做读书笔记，怎么准备会议，怎么整理邮件，怎么做人物调研。这些 skill 就是他教给 AI 的「怎么做事」。

数据层同样非常厚。他维护着一个大约10万页的结构化知识库。每个他见过的人都有一个页面，每场会议都有记录，每本读过的书都有逐章解读，每篇文章、每个播客、每段视频都被吃进去、打上标签、互相交叉引用。

这三层加在一起，就构成了一个真正意义上的「第二大脑」。不是比喻意义上的，是一个每天24小时在跑的系统，有100多个定时任务在后台自动运行。

2、Book Mirror：把一本书变成你自己的人生镜子

Garry Tan 举的第一个例子就让人印象深刻。

他在读一本关于佛教哲学的书，叫《当一切崩溃时》（When Things Fall Apart），是朋友在他经历困难时期推荐的。读完之后，他让 AI 做了一件事：逐章提取作者的观点，然后把每一个观点映射到他自己的真实生活上。

注意，这里说的映射不是那种泛泛的「这对领导者有启发」之类的套话。系统知道他的家庭背景（移民家庭，父亲来自香港和新加坡，母亲来自缅甸），知道他的职业处境（管理 YC，指导数千创业者），知道他最近在读什么、在想什么、和治疗师在聊什么。

产出是一份3万字的个人化解读。每一章都是两栏：左边是作者说了什么，右边是这跟他正在经历的事有什么关系。关于「无常」的那一章，连接到了他上周和某个创业者的一次具体对话。关于「恐惧」的那一章，映射到了他治疗师识别出的行为模式。关于「放手」的那一章，引用了他某个深夜写下的关于创造自由的感悟。

整个过程花了40分钟。他说，一个收费300美元一小时的治疗师，就算花40个小时也做不到这件事，因为治疗师不可能同时掌握他的职业背景、阅读历史、会议记录和所有人际关系的完整图谱。

他已经对20多本书做了这个操作。而且每做一次，系统就变得更强，因为第二本书的解读知道第一本的内容，第二十本知道前面十九本的所有内容。知识在累积，连接在增长。

这个案例特别有启发性。我们大多数人读书，读完就读完了，最多划几条线、写几句感想。但如果你能让 AI 把书里的每个观点都跟你自己的处境做一次深度对照，这本书对你的价值就完全不一样了。你不需要有10万页的知识库才能开始做这件事，哪怕只是把你最近在想的几个问题、你的职业背景告诉 AI，然后让它帮你做一次「镜像」，效果也会比单纯阅读好得多。

3、Meeting Prep：两分钟准备一场高质量对话

另一个例子是会议准备。DeepMind 的 CEO Demis Hassabis 要来 YC 做一场炉边对话，正好他的传记刚出版。

Garry Tan 让系统帮他准备。两分钟之内，系统调出了：Demis 的完整个人页面（过去几个月从文章、播客、他自己的笔记中持续积累的），Demis 公开发表过的关于 AGI 时间线的判断，传记里的重点内容，Demis 的研究优先级，以及 Garry 自己公开说过的关于 AI 的观点和 Demis 的交叉对比。系统甚至准备了三个演示脚本，用来在对话中展示他的系统的多跳推理能力，还有一组对话切入点，基于两人世界观的重叠和分歧。

这不是一次更好的 Google 搜索。这是一次利用了他所有积累上下文的战略性准备。系统准备的不只是事实，还有角度。

想想看，我们平时准备一场重要会面，通常就是 Google 一下对方，翻翻最近的新闻，最多看看对方的社交媒体。但如果你过去几个月一直在系统性地积累关于这个人的信息，而且这些信息跟你自己的观点、你自己的目标做了交叉索引，那你走进会议室的时候，状态是完全不同的。

4、Entity Propagation：让知识自动流动

还有一个很精妙的设计叫 Entity Propagation（实体传播）。

每次开完一场会，系统不只是生成一份会议纪要就完事了。它会遍历会议中提到的每一个人和每一家公司，然后去更新他们各自的知识页面，把这次会议中讨论到的跟他们相关的内容补充进去。

这意味着什么？意味着下次你再见到某个人的时候，他的页面上已经自动包含了上次会议里关于他的讨论。你不需要自己去回忆「上次我们聊了什么来着」，系统已经帮你把信息流转到了正确的位置。

Garry Tan 用了一个很好的比喻：普通的笔记系统就像一个文件柜，你把东西放进去，它就待在那里。但他的系统更像一个神经系统，它会自动把信息连接起来，标记出什么发生了变化，并且在你需要的时候把相关的东西浮现出来。

5、Skillify：一个创造技能的技能

整篇文章里最让人拍案叫绝的概念，可能就是 Skillify 了。

Skillify 是一个 meta-skill，也就是一个「创造技能的技能」。当 Garry Tan 发现自己在重复某个工作流程的时候，他就说一句「skillify this」，系统会自动分析刚才发生了什么，提取出可复用的模式，写成一份带有触发条件和边界情况处理的 skill 文件，然后注册到系统里。

Book Mirror 这个功能就是从第一次手动尝试中被 skillify 出来的。会议准备流程也是在他注意到自己每次通话前都在重复同样步骤之后被 skillify 出来的。

而且 skill 之间可以互相调用。Book Mirror 会调用 brain-ops 来存储，调用 enrich 来补充上下文，调用 cross-modal-eval 来做质量检查，调用 pdf-generation 来输出。每个 skill 只专注做一件事，它们链接在一起就能完成复杂的工作流。当你改进了其中一个 skill，所有用到它的工作流都会自动变好。

这个思路对我们普通人来说也完全适用。你不需要有100个 skill 才能开始。哪怕你只是把自己最常重复的一两个工作流程写成一份清晰的指令文档，让 AI 每次按照这个文档来执行，你就已经在做 skillification 了。关键是那个意识：当你发现自己在重复做某件事的时候，停下来，把它变成一个可复用的模式。

6、Cross-Modal Evaluation：用多个模型互相打分

Garry Tan 很诚实地说，他第一次做 Book Mirror 的时候，结果很糟糕。系统说他父母离婚了（其实没有），说他在香港长大（其实他出生在加拿大）。这种事实错误如果被分享出去，会严重损害信任。

所以他加了一个强制性的事实核查步骤，叫 cross-modal evaluation。每次生成内容之后，系统会把输出发给多个不同的模型，让它们互相打分。Opus 4.7 擅长抓精确度错误，GPT-5.5 擅长发现遗漏的上下文，DeepSeek V4-Pro 擅长识别内容是否太泛泛、太通用。

这个做法背后的道理很朴素：单一模型总有盲区，但多个模型互相校验，就能把错误率压得很低。而且一旦某个错误被发现并修复，这个修复就会被写进 skill 文件里，以后所有类似的任务都不会再犯同样的错。

这对我们的启发是：如果你在用 AI 做重要的事情，不要只依赖一个模型的输出。把同一份内容丢给不同的模型，让它们互相检查，这个简单的步骤就能大幅提高可靠性。

7、模型只是引擎，其他一切才是车

Garry Tan 在文章里反复强调一个观点：当别人问他「哪个 AI 模型最好」的时候，他的回答是：问错问题了。

他同时在用好几个模型。Opus 4.7 用来做精确任务，GPT-5.5 用来做全面提取，DeepSeek V4-Pro 用来做创意工作和提供第三视角，Groq 配 Llama 用来追求速度。每个 skill 自己决定该调用哪个模型来完成哪个子任务。路由层根本不关心你用的是什么模型。

这个类比很精准：LLM 本身只是引擎。你的 skill 是变速箱，你的数据是燃油，你的架构是底盘。引擎很重要，但光有引擎你哪儿也去不了。真正值钱的，是你教会这个系统的关于你自己的生活、工作和判断标准的那些东西。

这也是为什么他说，未来属于那些构建复利型 AI 系统的个人，不属于那些只使用中心化 AI 工具的人。区别就像写日记和拥有一个神经系统之间的差距。

8、复利思维：每一次使用都让系统变得更强

Garry Tan 说，别人问他关于生产力的问题，他不这么想。他想的是复利。

每开一次会，知识库就增长一点。每读一本书，下一本书的解读就更丰富一点。每造一个 skill，下一个工作流就更快一点。每更新一个人物页面，下次会议准备就更精准一点。他说他的系统现在比两个月前强10倍，两个月后又会再强10倍。

他每天有100多个定时任务在后台跑。会议记录自动处理，邮件每10分钟自动分类一次，知识图谱从每一次对话中自动丰富自己。系统每天都在处理转录稿，实时提取他自己可能遗漏的模式。

这种复利效应，其实是整篇文章最值得深思的地方。大多数人用 AI 的方式是线性的：问一个问题，得一个答案，下次再问，从零开始。但如果你能让每一次使用都往一个持久的系统里沉淀一点东西，时间就会站在你这边。

你不需要一开始就造一个10万页的知识库。Garry Tan 自己也说了，他造的第一个东西很糟糕，第一百个才是他愿意把日历、收件箱、会议准备和阅读清单都交给它的程度。系统在学习，他也在学习。复利曲线是真实存在的。

9、怎么开始

Garry Tan 在文章最后给了四步建议：

第一，选一个路由层。OpenClaw、Hermes Agent，或者自己从头搭一个。保持它很薄，它只是一个分发器。

第二，开始建你的知识库。用 GBrain 或者类似的工具。一个 git 仓库，每个人、每场会议、每篇文章、每个想法都有自己的页面。

第三，做一件有意思的事。不要一上来就规划你的 skill 架构。先做一件你真正关心的事：写一份报告，调研一个人，分析你的投资组合，随便什么。用你的 agent 来做，反复迭代直到满意，然后用 Skillify 把这个过程提取成一个可复用的 skill。

第四，持续使用，观察输出。skill 一开始肯定很平庸，这没关系。用它，看它产出的东西，发现问题就用 cross-modal eval 来校正。修复会被写进 skill 里，以后就不会再犯。六个月之后，你会拥有一个任何聊天机器人都复制不了的东西，因为价值不在模型里，在你教会系统的关于你自己的一切里面。

他把所有代码都放在了 GitHub 上：GStack（编程技能框架，8.7万星），GBrain（知识基础设施），OpenClaw 和 Hermes Agent（路由层）。

最后一句话，也是整篇文章的精神内核：厚技能，厚数据，薄路由。LLM 本身只是引擎。你完全可以造自己的车。

#How I AI# #科技先锋官#

发布于山东