一个小众模型突然火了,可能代表新的范式。
最近各家大厂和创业公司都在密集发布新模型。我看了一圈,这些模型在性能和效率上肯定有提升,但都算不上里程碑式的版本。
从我的角度看,这几年大模型发展,有几个比较重要的节点。
第一个是推理范式。代表作是 OpenAI 的 o1。
o1 之前的模型,不管是 GPT-4 还是 Claude,都是即时响应的,问一句答一句,秒回。o1 做了一件挺不一样的事,它在回答之前会先思考一阵子。
这个思考不是给用户看的,而是它在内部生成大量 Token 给自己看。这些 Token 是它的内部思维链,用来拆解问题、尝试不同思路、识别错误、再换一种方法。等想清楚了,才把最终答案输出来。
第二个是原生多模态。这个事行业里提得不多,但我觉得非常重要。代表作是 Google 的 Gemini。
2023 年 12 月 Google 发 Gemini 的时候,技术报告里明确提了一个词,natively multimodal。意思是 Gemini 从训练的第一天起,就同时用文本、图像、音频、视频联合训练,不是先训一个语言模型再外挂视觉模块。
为什么这个事重要?大家可以试一下,把一张图片扔给 Gemini 或者 Kimi K2.5 这种原生多模态模型,它对图里的细节理解会很到位,包括位置关系、表情、文字。
如果不是原生的,是拼接式的,那中间要经过一道翻译,图像识别完转成文字再喂给语言模型,细节就都损耗掉了。
也就是说,原生多模态解决的是模型从底层就能看懂图这件事。
第三个是原生 Agent。这个已经老生常谈了,现在头部模型基本都是这个方向。
意思是说,模型在训练阶段就被刻意练过怎么去拆任务、怎么去调工具、怎么去做多步推理。
Anthropic 训 Claude 的时候就明确这么干,丢给它大量开放式问题,让它自己去调工具、拆解任务、自主执行。
这事现在已经是确定的方向了。http://t.cn/AXJLbPm6
