大模型发展节点

一个小众模型突然火了，可能代表新的范式。

最近各家大厂和创业公司都在密集发布新模型。我看了一圈，这些模型在性能和效率上肯定有提升，但都算不上里程碑式的版本。

从我的角度看，这几年大模型发展，有几个比较重要的节点。

第一个是推理范式。代表作是 OpenAI 的 o1。

o1 之前的模型，不管是 GPT-4 还是 Claude，都是即时响应的，问一句答一句，秒回。o1 做了一件挺不一样的事，它在回答之前会先思考一阵子。

这个思考不是给用户看的，而是它在内部生成大量 Token 给自己看。这些 Token 是它的内部思维链，用来拆解问题、尝试不同思路、识别错误、再换一种方法。等想清楚了，才把最终答案输出来。

第二个是原生多模态。这个事行业里提得不多，但我觉得非常重要。代表作是 Google 的 Gemini。

2023 年 12 月 Google 发 Gemini 的时候，技术报告里明确提了一个词，natively multimodal。意思是 Gemini 从训练的第一天起，就同时用文本、图像、音频、视频联合训练，不是先训一个语言模型再外挂视觉模块。

为什么这个事重要？大家可以试一下，把一张图片扔给 Gemini 或者 Kimi K2.5 这种原生多模态模型，它对图里的细节理解会很到位，包括位置关系、表情、文字。

如果不是原生的，是拼接式的，那中间要经过一道翻译，图像识别完转成文字再喂给语言模型，细节就都损耗掉了。

也就是说，原生多模态解决的是模型从底层就能看懂图这件事。

第三个是原生 Agent。这个已经老生常谈了，现在头部模型基本都是这个方向。

意思是说，模型在训练阶段就被刻意练过怎么去拆任务、怎么去调工具、怎么去做多步推理。

Anthropic 训 Claude 的时候就明确这么干，丢给它大量开放式问题，让它自己去调工具、拆解任务、自主执行。

这事现在已经是确定的方向了。http://t.cn/AXJLbPm6

发布于北京