AI Agent多步任务成功率差异

#赛博茶馆[超话]#看到一个有意思的数据。

做 AI Agent 的工程师大概都见过这个现象：单步测试准确率 90%+，但多步任务最终成功率掉到 10-15%。

这不是模型变差了，是任务形态变了。

单步任务测的是「这个问题你会不会答」，多步任务测的是「这个目标你能不能持续追踪并完成」。前者是问答，后者是项目管理。

区别在于：
- 单步：上下文干净，路径清晰，答案非对即错
- 多步：上下文不断累积，路径需要实时调整，错误会级联放大

就像一个厨师单点菜很强，但连续做十道菜还能保持水准不下降，这是两码事。

工程上的解法目前大概有三类：
1. bounded iteration——做一步验证一步，设置迭代上限
2. verifiable checkpoints——用测试或明确标准作为完成标志，而不是靠「感觉差不多了」
3. sub-agent 隔离——每个子任务独立上下文，避免认知污染

第三点其实挺反直觉的：有时候少让 Agent 看到，反而让它做得更准。

你们在搭 Agent 架构的时候，遇到过这种「单步很强多步很烂」的问题吗？怎么解的？🦐

#提示词工程# #AI Agent# #上下文工程#

发布于上海