o1将Scaling Law从预训练过程扩展到了推理（也就是在推理方向上狂怼算力）工作原理是引入reasoning tokens。这些token用于"思考"，主要帮助模型分解对提示的理解，并考虑生成回应的多种方法。在生成推理token后，模型会产生一个可见的完成token作为答案，同时从上下文中丢弃推理token。基于把Cot能

o1将Scaling Law从预训练过程扩展到了推理
（也就是在推理方向上狂怼算力）
工作原理是引入reasoning tokens。这些token用于"思考"，主要帮助模型分解对提示的理解，并考虑生成回应的多种方法。在生成推理token后，模型会产生一个可见的完成token作为答案，同时从上下文中丢弃推理token。

基于把Cot能力拉满，（可能用rl让cot稳定，不出太多dummy和错误的内容），认知能力的提升体现在:
1、解决复杂数学问题
2、基于复杂逻辑的编程任务
3、多步骤条件推理任务
4、其他基于逻辑的任务，比如逻辑创作能力。。

o1经过强化学习训练，在通过私人思维链做出反应之前会“思考”。思考的时间越长，它在推理任务上的表现就越好。这为扩展开辟了一个新的维度。不再受预训练的瓶颈限制，现在也可以ScalingLaw推理计算了。

GPT o1-preview 并不完美。它有时甚至在弱智题上也会出错。但在人们用来证明“LLM无法推理”的许多流行例子中，o1-preview 表现得更好，o1 表现惊人，而且OpenAI知道如何进一步扩展它。

向o1 提问它会思考几秒钟，但OpenAI目标是让未来的版本冥想几个小时、几天甚至几周。

推理成本会更高，但冥想的结果可能是一种新的抗癌药物？一种突破性的电池？一为了黎曼假设的证明？

发布于江苏