AI大模型多轮对话性能下降

刚看到一项关于AI大模型的研究，挺有意思的。不是说现在的AI多厉害吗，但最新研究发现，它们在多轮对话任务里其实表现不太稳定。

有个研究团队对新一代大语言模型（从GPT-5及后续版本）做了测试，让它们干六种不同的活，比如写代码、整理数据、做摘要这些。结果发现，如果把这些任务拆成好几轮对话一点一点告诉AI，比一次性把所有要求都说清楚，模型的表现会明显下降。

性能下降最多能达到39%，就算是更新的模型，也只是把下降幅度从39%缩小到33%，问题其实还在。不过不同任务的表现也有差异，写Python代码的时候情况好点，有的模型只掉了10%到20%。

研究人员还提到，他们测试时用的场景还是比较简单的。如果在真实对话里用户中途改变想法，模型的性能下降可能会更严重。而且调整温度参数这类常见方法也解决不了这个问题。

那遇到这种情况怎么办？他们建议：如果发现对话开始混乱，干脆重新开个新对话。最好先让模型把之前聊过的所有请求总结一遍，然后用这份总结当新对话的开头。这个小技巧还挺实用的。

发布于福建