一种 o1 的猜测，o1 可能在思维链的每一步都有多个候选方案，然后选择一个评分最高的进入下一步，就像一颗决策树。因为只有这样，才能解释为什么简单的推理都要消耗如此多的推理 Token。另外每一步产生的决策数量是可以配置的，比如现在每一步有4条决策，要节约成本可以减少到2-3条，要效果更好可

一种 o1 的猜测，o1 可能在思维链的每一步都有多个候选方案，然后选择一个评分最高的进入下一步，就像一颗决策树。

因为只有这样，才能解释为什么简单的推理都要消耗如此多的推理 Token。

另外每一步产生的决策数量是可以配置的，比如现在每一步有4条决策，要节约成本可以减少到2-3条，要效果更好可以提升到5-6条。

视频来源：http://t.cn/A6Rsql1y
图源：http://t.cn/A6Rsql14

发布于美国