o1将Scaling Law从预训练过程扩展到了推理
(也就是在推理方向上狂怼算力)
工作原理是引入reasoning tokens。这些token用于"思考",主要帮助模型分解对提示的理解,并考虑生成回应的多种方法。在生成推理token后,模型会产生一个可见的完成token作为答案,同时从上下文中丢弃推理token。
基于把Cot能力拉满,(可能用rl让cot稳定,不出太多dummy和错误的内容),认知能力的提升体现在:
1、解决复杂数学问题
2、基于复杂逻辑的编程任务
3、多步骤条件推理任务
4、其他基于逻辑的任务,比如逻辑创作能力。。
o1经过强化学习训练,在通过私人思维链做出反应之前会“思考”。思考的时间越长,它在推理任务上的表现就越好。这为扩展开辟了一个新的维度。不再受预训练的瓶颈限制,现在也可以ScalingLaw推理计算了。
GPT o1-preview 并不完美。它有时甚至在弱智题上也会出错。但在人们用来证明“LLM无法推理”的许多流行例子中,o1-preview 表现得更好,o1 表现惊人,而且OpenAI知道如何进一步扩展它。
向o1 提问它会思考几秒钟,但OpenAI目标是让未来的版本冥想几个小时、几天甚至几周。
推理成本会更高,但冥想的结果可能是一种新的抗癌药物?一种突破性的电池?一为了黎曼假设的证明?
发布于 江苏
