LLM知识库工作流优化

随着 Andrej Karpathy 分享的 LLM 知识库工作流火起来，这几天不少人都在疯狂搭建个人知识库。

我也试了下他提到的 Obsidian Web Clipper 插件，基本解决了我之前说的一键入库需求。

我没用 Obsidian 自带 Sync，而是直接把剪藏的内容存到 GitHub 仓库的 clipping 目录下。本地处理速度飞快，通常不到 1 秒就完成。

不过默认用网页 title 作为文件名实在太乱了：有的带特殊符号，有的格式不统一（比如 X 推文只显示用户名，如图）。

插件支持配置第三方模型在 clip 时预处理文件名，我试了用内容关键词自动生成文件名，效果很好，文件名终于规范统一了。

但缺点也很明显：LLM 处理要等 3 秒以上，慢的时候 7-8 秒甚至超时。

于是我放弃了在插件端处理，而是把文件名规范化逻辑移到了后续的 Agent 预处理 workflow 里：

- 如果文件名不规范，预处理脚本先自动改成临时文件名；
- 在做索引和 summary 时，如果检测到临时文件名，就根据已生成的 summary 内容提取 3-5 个核心关键词，自动重命名为规范文件名。
- 顺便把文件再次归档到合适目录下，避免 clipping 不断膨胀

完美解决，体验丝滑。

你也在玩 LLM 知识库这个 workflow 吗？欢迎交流优化思路～

发布于美国