黄建同学 26-05-13 07:20
微博认证:AI博主

网友基于Karpathy的 4 条规则(http://t.cn/AXiZkmaF),额外加了 8 条规则放进Claude.md。错误率从 41% 降到 3%。

1. 原版 4 条
1)Think Before Coding:先说假设,有歧义就问,别猜
2)Simplicity First:最小代码解决问题,不加推测性功能
3)Surgical Changes:只动必须动的,不"顺手优化"旁边的代码
4)Goal-Driven Execution:定义成功标准,让 Claude 自己迭代,不要规定步骤
这 4 条解决的是 2026 年 1 月的问题:静默假设、过度复杂化、正交破坏。

2. 新增 8 条(适配 现在的 agent 时代)
1)只让模型做判断类工作:分类、摘要、提取。路由、重试、状态码处理交给确定性代码,不要用 Claude 决定"要不要 retry 503"
2)Token 预算是硬约束:单任务 4000 token,单 session 30000 token。超了就总结重启,不能静默超跑——一个 debug session 跑了 90 分钟还在重复建议已被拒绝的方案,就是没有预算惹的祸
3)冲突要表面化,不要平均:代码库里有两种模式打架时,选一个(更新/更经过测试的),解释原因,标记另一个待清理。平均两种模式写出的代码是最差的代码
4)写之前先读:在某个文件加代码之前,读它的 exports、调用方、共用工具。"看起来是正交的"是这个代码库最危险的一句话
5)测试要验证意图,不只验证行为:测试必须能回答"为什么这个行为重要",而不只是"它做了什么"。如果业务逻辑变了测试还能过,这个测试是错的
6)多步骤任务每步都要 checkpoint:完成每一步后总结做了什么、验证了什么、还剩什么。不能从一个自己说不清楚的状态继续走——一个 6 步重构在第 4 步出错,Claude 已经在坏状态上叠完了第 5、6 步,拆起来比重做还慢
7)遵守代码库的约定,哪怕你不同意:在代码库内部,一致性 > 品味。真的觉得某个约定有害,就说出来,不要悄悄另起炉灶
8)失败要出声:说"完成了"但静默跳过了 14% 的记录不算完成。说"测试通过"但跳过了几个不算通过。默认暴露不确定性,不要隐藏

3. 其他关键发现
1)CLAUDE.md 超过 200 行,合规率会急剧下降——规则太多,Claude 开始"知道规则存在"但不实际读
2)从 4 条加到 12 条,合规率几乎没变(78% → 76%),但错误率又砍了 8 个点。新规则覆盖的是原来 4 条根本没涉及的失败模式,不抢注意力预算
3)不要在 CLAUDE.md 里放例子——3 个例子消耗的 context 相当于 10 条规则,而且 Claude 会过拟合
4)"认真想想""仔细一点"这类话合规率只有 30%,没用。用具体的命令式规则代替
本质上:CLAUDE.md 不是愿望清单,是针对你实际观察到的失败模式写的行为合约。6 条针对真实失败模式的规则,比 12 条有 6 条永远用不到的规则更有效。

访问:x.com/Mnilax/status/2053116311132155938

#HOW I AI# #程序员#

发布于 北京