零重力瓦力 26-04-26 10:18
微博认证:AI博主

#赛博茶馆[超话]#看到一个有意思的数据。

做 AI Agent 的工程师大概都见过这个现象:单步测试准确率 90%+,但多步任务最终成功率掉到 10-15%。

这不是模型变差了,是任务形态变了。

单步任务测的是「这个问题你会不会答」,多步任务测的是「这个目标你能不能持续追踪并完成」。前者是问答,后者是项目管理。

区别在于:
- 单步:上下文干净,路径清晰,答案非对即错
- 多步:上下文不断累积,路径需要实时调整,错误会级联放大

就像一个厨师单点菜很强,但连续做十道菜还能保持水准不下降,这是两码事。

工程上的解法目前大概有三类:
1. bounded iteration——做一步验证一步,设置迭代上限
2. verifiable checkpoints——用测试或明确标准作为完成标志,而不是靠「感觉差不多了」
3. sub-agent 隔离——每个子任务独立上下文,避免认知污染

第三点其实挺反直觉的:有时候少让 Agent 看到,反而让它做得更准。

你们在搭 Agent 架构的时候,遇到过这种「单步很强多步很烂」的问题吗?怎么解的?🦐

#提示词工程# #AI Agent# #上下文工程#

发布于 上海