大模型Prompt效果差异分析

每一个基础大模型都有自己的脾气。同一个Prompt，在不同模型上跑出来的效果可能完全不一样，因为每个模型的训练数据、微调目标都不同，它们理解指令的方式也会不一样。有研究发现，大模型对Prompt本身非常敏感，哪怕只是改个格式，性能都可能明显变化
所以过去一年AI工程化里冒出来的一堆新名词，比如Instruction、Skill、Agent、Harness，本质上都是在“调教”模型，让它更贴近我们的任务目标。
但问题是，这种调教往往是模型相关的：
在A模型上很好用的Prompt或Agent设计，换到B模型上可能完全不work
甚至对更强的模型来说，这些花里胡哨的结构有时反而会限制它发挥，还不如简单指令效果好。
所以也没必要把这些新出来的概念当成“能力增强模块”来看待，它们更多是在弥补当前模型和具体任务之间的适配问题，而不是让模型本身变得更聪明。很多时候，它们解决的是“用得好不好”的问题，而不是“模型行不行”的问题。在使用Instruction、Skill、Agent、Harness时，更合理的心态是：把它们当成一层工程调优手段，而不是能力升级路径。随着基础模型能力提升，这类调节机制的收益也可能会逐渐下降，甚至在某些场景下变成额外负担。

发布于北京