Margot提示词工程法|margot van laar|anthropic|提示词工程

Anthropic 的应用 AI 工程师 Margot Van Laar 在 Code with Claude 上做了一次分享，讲的是提示词工程的实战方法论。她的核心观点非常干脆：我们其实很少从零开始写提示词，绝大多数时间都在调试和维护已经在跑的提示词。

那怎么改才算有效？她说了一句我特别认同的话：最好的起点永远是评估，而不是直接上手改。没有评估，所有的改动都是在碰运气。

场景一：维护一个已有的客服机器人提示词

这是最常见的场景。一个提示词跑了一段时间之后，里面堆满了各种补丁，越改越臃肿。Margot 的做法是分四步来：

第一步，做通用清理。用 XML 标签把结构重新理清楚，角色定义、政策说明、语气设定、具体指南分别拆开，该删的冗余全部删掉，输出格式也明确下来。很多时候光做完这一步，效果就已经明显变好。

第二步，警惕旧时代的遗产。以前为了适配旧模型，你可能在提示词里加了一堆禁令列表，告诉模型什么不能说。但新模型的推理能力完全不一样了，这些老的禁令反而会让模型过度拟合，导致它瞒着你本来可以正常提供的信息。

第三步，该上工具就上工具。当任务涉及精确计算的时候，靠指令去约束是没用的。直接给它工具，让它去算，比你写再多规则都靠谱。

第四步，转人工的决策要把两面都说清楚。升级和转人工的代价、收益两方得同时写进提示词，如果只强调一边，模型就会过度优化那一边，要么死撑着不转，要么动不动就转。

场景二：从零构建一个零售排班 Agent

这个场景更接近从一张白纸开始。Margot 的教训是：千万别试图用一个超级复杂的提示词搞定所有事情，几乎必败。更好的做法是把流程拆成三步，生成、评估、修复，让三个相对简单的提示词各管一摊，各司其职。

模型选择上她也有一个很实用的建议：用更强的推理模型配上自适应思考，效果往往比用小模型加一层又一层复杂提示词要好得多，也更省力。

一句话总结

整个分享听下来，Margot 翻来覆去强调的就是一件事：评估是你唯一能确认改动是否有效的严谨手段。没有评估，改完效果好还是不好，你根本说不清楚，只是在凭感觉赌。先把评估体系建起来，再谈优化。

#科技先锋官##how i ai# http://t.cn/AXovN7NQ

发布于山东