爱可可-爱生活 26-05-20 13:37
微博认证:AI博主 2025微博新锐新知博主

【掌握这套12条工程规则,直接把Claude错误率从41%压至3%】

快速阅读:Andrej Karpathy 指出 Claude 的错误 90% 源于上下文缺失而非模型能力。通过引入一套结构化的规则文件(如 CLAUDE.md),可以将错误率从 41% 降至 3%。

很多人在用 Claude 时会觉得它不够聪明,但真相可能有些残酷:模型没问题,是上下文丢了。

Andrej Karpathy 提到一个数据:如果没有 CLAUDE.md 这种规则文件,Claude 的错误率高达 41%;但如果遵循这套包含 12 条规则的基准,错误率能直接压到 3%。这说明上下文工程才是真正的技术天花板,而不是盲目追求更大的模型。

12 条核心规则:

1、思考先行:在编码前强制陈述假设。AI 无法读心,不要寄希望于它能自动理解你的潜台词,明确意图是协作的起点。

2、简约至上:追求最少代码,拒绝预测性抽象。任何为了 未来灵活性 增加的冗余,往往会在下个季度被全部删除。

3、精确修改:手术刀式地触碰代码。严禁 AI 顺便优化相邻代码,这是防止 Pull Request 规模失控的关键。

4、目标驱动:预先定义成功标准,并进行循环验证。没有明确的终点,AI 要么陷入死循环,要么在任务未完成时过早停止。

5、仅用于判断性任务:让模型负责分类、草拟、摘要和提取。至于路由、重试、状态码处理等确定性逻辑,交给代码本身,而非概率模型。

6、严格遵守Token预算:单次任务建议 4000 token,单次会话 30000 token。当对话过长,AI 会开始反复建议你早已拒绝过的错误方案。

7、暴露冲突而非折中:代码库中存在两种模式?选定一个。AI 试图融合不同风格只会导致错误被双重掩盖,保持一致性是第一优先级。

8、先读后写:要求 AI 必须读取导出文件、调用方和共享工具。否则它会在你已有的功能旁边写出一个完全相同的副本。

9、测试验证意图而非行为:如果业务逻辑改变但测试依然通过,那测试就是失效的。确保测试能够捕捉到逻辑的本质失效,而非仅仅跑通流程。

10、关键步骤设置检查点:每完成一个重要阶段就进行确认。不要在错误的基础上继续构建,否则你会在一小时后才发现底层架构早已崩塌。

11、匹配代码库惯例:保持风格高度统一。如果项目使用 Class 组件,就不要让 AI 默默引入 Hooks,这种隐性冲突会破坏整个测试体系。

12、显性失败:最可怕的 Bug 是显示 成功 却静默跳过了数据。要求 AI 暴露不确定性,严禁隐藏错误,让失败尽可能大声。

这套规则其实是在把 AI 当成一名高级工程师来对待。有网友提到,这就像给新入职的资深开发做 Onboarding,你需要明确告诉他:不要猜测假设,先思考再写代码;保持代码极简,拒绝为了所谓的“未来灵活性”增加冗余;进行手术式修改,只动该动的地方,别去碰相邻的代码。

最容易被忽视的是“检查点”意识。如果第 4 步已经写错了,第 5、6 步就是在错误的基础上不断叠加错误。如果不及时回滚或纠偏,这种错误会像雪球一样滚大。

还有关于测试的警示:如果一个测试在业务逻辑改变时依然能通过,那它就是废纸。有开发者感叹,有些测试甚至能让函数返回一个常量时依然显示通过,这种虚假的信心比没有测试更危险。

与其抱怨模型不够强,不如把那些存在于脑子里的架构规范、命名习惯和工程纪律,显式地写进规则文件里。

x.com/DeRonin_/status/2056300651764711879

发布于 北京