刚看到一项关于AI大模型的研究,挺有意思的。不是说现在的AI多厉害吗,但最新研究发现,它们在多轮对话任务里其实表现不太稳定。
有个研究团队对新一代大语言模型(从GPT-5及后续版本)做了测试,让它们干六种不同的活,比如写代码、整理数据、做摘要这些。结果发现,如果把这些任务拆成好几轮对话一点一点告诉AI,比一次性把所有要求都说清楚,模型的表现会明显下降。
性能下降最多能达到39%,就算是更新的模型,也只是把下降幅度从39%缩小到33%,问题其实还在。不过不同任务的表现也有差异,写Python代码的时候情况好点,有的模型只掉了10%到20%。
研究人员还提到,他们测试时用的场景还是比较简单的。如果在真实对话里用户中途改变想法,模型的性能下降可能会更严重。而且调整温度参数这类常见方法也解决不了这个问题。
那遇到这种情况怎么办?他们建议:如果发现对话开始混乱,干脆重新开个新对话。最好先让模型把之前聊过的所有请求总结一遍,然后用这份总结当新对话的开头。这个小技巧还挺实用的。
发布于 福建
