26-06-30 11:51 微博认证:微博新知博主 科技博主 头条文章作者 微博原创视频博主

Anthropic 的应用 AI 工程师 Margot Van Laar 在 Code with Claude 上做了一次分享,讲的是提示词工程的实战方法论。她的核心观点非常干脆:我们其实很少从零开始写提示词,绝大多数时间都在调试和维护已经在跑的提示词。

那怎么改才算有效?她说了一句我特别认同的话:最好的起点永远是评估,而不是直接上手改。没有评估,所有的改动都是在碰运气。

场景一:维护一个已有的客服机器人提示词

这是最常见的场景。一个提示词跑了一段时间之后,里面堆满了各种补丁,越改越臃肿。Margot 的做法是分四步来:

第一步,做通用清理。用 XML 标签把结构重新理清楚,角色定义、政策说明、语气设定、具体指南分别拆开,该删的冗余全部删掉,输出格式也明确下来。很多时候光做完这一步,效果就已经明显变好。

第二步,警惕旧时代的遗产。以前为了适配旧模型,你可能在提示词里加了一堆禁令列表,告诉模型什么不能说。但新模型的推理能力完全不一样了,这些老的禁令反而会让模型过度拟合,导致它瞒着你本来可以正常提供的信息。

第三步,该上工具就上工具。当任务涉及精确计算的时候,靠指令去约束是没用的。直接给它工具,让它去算,比你写再多规则都靠谱。

第四步,转人工的决策要把两面都说清楚。升级和转人工的代价、收益两方得同时写进提示词,如果只强调一边,模型就会过度优化那一边,要么死撑着不转,要么动不动就转。

场景二:从零构建一个零售排班 Agent

这个场景更接近从一张白纸开始。Margot 的教训是:千万别试图用一个超级复杂的提示词搞定所有事情,几乎必败。更好的做法是把流程拆成三步,生成、评估、修复,让三个相对简单的提示词各管一摊,各司其职。

模型选择上她也有一个很实用的建议:用更强的推理模型配上自适应思考,效果往往比用小模型加一层又一层复杂提示词要好得多,也更省力。

一句话总结

整个分享听下来,Margot 翻来覆去强调的就是一件事:评估是你唯一能确认改动是否有效的严谨手段。没有评估,改完效果好还是不好,你根本说不清楚,只是在凭感觉赌。先把评估体系建起来,再谈优化。

#科技先锋官##how i ai# http://t.cn/AXovN7NQ

发布于 山东