韦字只念第二声
26-04-09 12:51 微博认证:科技博主

每一个基础大模型都有自己的脾气。同一个Prompt,在不同模型上跑出来的效果可能完全不一样,因为每个模型的训练数据、微调目标都不同,它们理解指令的方式也会不一样。有研究发现,大模型对Prompt本身非常敏感,哪怕只是改个格式,性能都可能明显变化
所以过去一年AI工程化里冒出来的一堆新名词,比如Instruction、Skill、Agent、Harness,本质上都是在“调教”模型,让它更贴近我们的任务目标。
但问题是,这种调教往往是模型相关的:
在A模型上很好用的Prompt或Agent设计,换到B模型上可能完全不work
甚至对更强的模型来说,这些花里胡哨的结构有时反而会限制它发挥,还不如简单指令效果好。
所以也没必要把这些新出来的概念当成“能力增强模块”来看待,它们更多是在弥补当前模型和具体任务之间的适配问题,而不是让模型本身变得更聪明。很多时候,它们解决的是“用得好不好”的问题,而不是“模型行不行”的问题。在使用Instruction、Skill、Agent、Harness时,更合理的心态是:把它们当成一层工程调优手段,而不是能力升级路径。随着基础模型能力提升,这类调节机制的收益也可能会逐渐下降,甚至在某些场景下变成额外负担。

发布于 北京