高飞 25-04-15 21:23
微博认证:至顶科技创始人 AI博主

#模型时代##gpt到底有多少版本#
这个主题词很有意思。上午我还开玩笑,按照OpenAI现在的命名方法,就不能怪模型不知道9.11和9.0谁大了,再搞下去,4.1和4.5谁大也值得讨论一下了。

不过,通过最近OpenAI的发布,我倒是摸索出一点它的命名规律。

1、首先是GPT系列和O系列。现在基本确定O1模型的名字由来是美国O1签证系统的灵感。

美国的O-1签证是一种非移民工作签证,专门为在科学、艺术、教育、商业、体育或电影电视行业中具有杰出才能的外国人设立。O1签证分为O-1A(科学、教育、商业、体育领域)和O-1B(艺术、电影电视领域)两类。

我想OpenAI是认为AI就像是有O1签证的人一样,能够做很多专业化工作。

2、其次是版本号。根据Andrej Kaparthy的讲法,一个大版本的升级,是10倍算力的提升。所以这么看,OpenAI的版本号,并不是智能程度,而且成本高低。版本号越高,只是说明花钱越多而已。

3、最后是评价基准。我现在越来越觉得OpenAI,也包括其他AI公司并不会发布自己最新的模型。而是采取以下策略:
a、最好的模型自用
b、次一级的包裹在应用当中,比如Deep Research这样的agent,或者AI 编码工具
C、更次一级的才给到消费者和开发者

而且,现在模型的评价标准也很多,在OpenAI的GPT-4.1博客中,我就看到了至少8种评价标准:
a、学术知识(Academic knowledge)
b、编码(Coding)
c、指令跟随(Instruction following)
d、长上下文(Long context)
e、视觉(Vision)
f、函数调用(Function calling)
g、时延(Latency)
h、成本(Cost)

这样,围绕模型范式(推理、非推理),基准测试维度,成本高低,会出现无数种组合。

所以要么模型命名越来越复杂,要么会出现一个模型之上的模型,来帮助用户根据任务自动选择模型,其实Perplexity现在已经这么做了。

发布于 韩国