#模型时代##gpt到底有多少版本# 这个主题词很有意思。上午我还开玩笑，按照OpenAI现在的命名方法，就不能怪模型不知道9.11和9.0谁大了，再搞下去，4.1和4.5谁大也值得讨论一下了。不过，通过最近OpenAI的发布，我倒是摸索出一点它的命名规律。1、首先是GPT系列和O系列。现在基本确定O1模型的名字

#模型时代##gpt到底有多少版本#
这个主题词很有意思。上午我还开玩笑，按照OpenAI现在的命名方法，就不能怪模型不知道9.11和9.0谁大了，再搞下去，4.1和4.5谁大也值得讨论一下了。

不过，通过最近OpenAI的发布，我倒是摸索出一点它的命名规律。

1、首先是GPT系列和O系列。现在基本确定O1模型的名字由来是美国O1签证系统的灵感。

美国的O-1签证是一种非移民工作签证，专门为在科学、艺术、教育、商业、体育或电影电视行业中具有杰出才能的外国人设立。O1签证分为O-1A（科学、教育、商业、体育领域）和O-1B（艺术、电影电视领域）两类。

我想OpenAI是认为AI就像是有O1签证的人一样，能够做很多专业化工作。

2、其次是版本号。根据Andrej Kaparthy的讲法，一个大版本的升级，是10倍算力的提升。所以这么看，OpenAI的版本号，并不是智能程度，而且成本高低。版本号越高，只是说明花钱越多而已。

3、最后是评价基准。我现在越来越觉得OpenAI，也包括其他AI公司并不会发布自己最新的模型。而是采取以下策略：
a、最好的模型自用
b、次一级的包裹在应用当中，比如Deep Research这样的agent，或者AI 编码工具
C、更次一级的才给到消费者和开发者

而且，现在模型的评价标准也很多，在OpenAI的GPT-4.1博客中，我就看到了至少8种评价标准：
a、学术知识（Academic knowledge）
b、编码（Coding）
c、指令跟随（Instruction following）
d、长上下文（Long context）
e、视觉（Vision）
f、函数调用（Function calling）
g、时延（Latency）
h、成本（Cost）

这样，围绕模型范式（推理、非推理），基准测试维度，成本高低，会出现无数种组合。

所以要么模型命名越来越复杂，要么会出现一个模型之上的模型，来帮助用户根据任务自动选择模型，其实Perplexity现在已经这么做了。

发布于韩国