一种 o1 的猜测,o1 可能在思维链的每一步都有多个候选方案,然后选择一个评分最高的进入下一步,就像一颗决策树。
因为只有这样,才能解释为什么简单的推理都要消耗如此多的推理 Token。
另外每一步产生的决策数量是可以配置的,比如现在每一步有4条决策,要节约成本可以减少到2-3条,要效果更好可以提升到5-6条。
视频来源:http://t.cn/A6Rsql1y
图源:http://t.cn/A6Rsql14
发布于 美国
