#模型时代# Andrej Kaparthy：我等待GPT4.5很久了，想知道这个提高了10倍计算量的模型会怎样。Andrej俨然是硅谷首席AI评价官了，从NotebookLM，R1、Grok3、到Claude3.7，再到GPT4.5，他都第一时间使用评价了。Andrej也和几家模型公司，包括前东家OpenAI和马斯克（特斯拉）关系都很好。果然，“老师”

#模型时代# Andrej Kaparthy：我等待GPT4.5很久了，想知道这个提高了10倍计算量的模型会怎样。

Andrej俨然是硅谷首席AI评价官了，从NotebookLM，R1、Grok3、到Claude3.7，再到GPT4.5，他都第一时间使用评价了。Andrej也和几家模型公司，包括前东家OpenAI和马斯克（特斯拉）关系都很好。果然，“老师”是最受尊重的职业。（刚看到Andrej又出了一门，讲他是怎么使用大模型的，已经在下载整理了……[揣手]）

我理解他很关心计算量大了10倍之后，一个模型可以达到的基准值是什么。而如果让我类比，GPT4.5相当于DeepSeek的V3，推理模型之前的一个基座。我也怀疑，如果不是Claude 3.7和Grok3，很有可能OpenAI就不现在把它拿出来了。

Andrej还在做一个模型评价投票，有兴趣可以去观望：
x.com/karpathy/status/1895213020982472863?s=46&t=gNFRWU2XTqFewqoRebotOA

评价如下：

***
# GPT 4.5 + 交互式比较 :)

今天，OpenAI发布了GPT4.5。自从GPT4发布以来，我期待这一刻已经大约两年了，因为这次发布提供了一种对预训练计算规模提升所带来的能力提升的定性测量（即简单地训练更大的模型）。版本号中每增加0.5大约代表预训练计算量增加10倍。回想一下，GPT1几乎无法生成连贯文本。GPT2是一个混乱的玩具。GPT2.5被"跳过"直接到了GPT3，这个版本更加有趣。GPT3.5跨越了作为产品发布的门槛，引发了OpenAI的"ChatGPT时刻"。而GPT4确实感觉更好，但我要说，这种提升确实很微妙。我记得参加过一个黑客马拉松，尝试寻找GPT4明显优于3.5的具体提示。这些例子确实存在，但很难找到清晰具体的"完胜"案例。这就像...一切都变得更好了，但是是以一种分散的方式。词汇选择更有创意了。对提示中细微差别的理解得到了改善。类比更有意义了。模型变得更有趣了一点。对稀有领域的世界知识和理解得到了提升。幻觉的频率减少了一些。整体感觉只是好了一点点。这就像涨潮时水位上升带动所有船只一样，所有方面都略微提升了20%。

带着这样的期望，我开始测试GPT4.5，我提前几天获得了访问权限，这个模型比GPT4多了10倍的预训练计算量。我感觉，再一次，我仿佛回到了两年前的那个黑客马拉松。一切都变得更好了，这很棒，但也不是那种容易指出的方式。尽管如此，这仍然非常有趣和令人兴奋，作为对"仅仅通过预训练更大的模型"就能获得的能力提升斜率的另一次定性测量。

请记住，GPT4.5只经过了预训练、有监督微调和RLHF，所以这还不是一个推理模型。因此，这个模型的发布并不会在需要推理能力的情况下推进模型能力（数学、代码等）。在这些情况下，通过强化学习训练并获得思考能力更为重要且效果更好，即使是建立在较旧的基础模型之上（例如GPT4级别的能力）。这方面的技术水平仍然是完整的o1。可以预见，OpenAI现在将寻求在GPT4.5模型之上进一步进行强化学习训练，使其能够思考，并在这些领域推进模型能力。

然而，我们确实期望在不需要强推理能力的任务上看到改进，我认为这些任务更多与情商（而非智商）相关，并受到如世界知识、创造力、类比制作、一般理解、幽默等方面的限制。所以在我的体验测试中，这些是我最感兴趣的任务。

因此，我觉得在下面突出展示5个有趣/好玩的提示来测试这些能力会很有趣，并将它们组织成一个互动式的"LM竞技场精简版"，就在X上，使用图片和投票的组合形式展开讨论。可惜的是，X不允许在单个帖子中同时包含图片和投票，所以我必须交替发布帖子，一个显示图片（展示提示和两个回应，一个来自GPT4，一个来自GPT4.5），一个发起投票，让人们可以投票选择哪个更好。8小时后，我将揭示哪个模型是哪个。让我们看看会发生什么:)

发布于北京