宝玉xp
24-09-17 12:33 微博认证:前微软Asp.Net最有价值专家 2025微博年度新知博主 科技博主

一种 o1 的猜测,o1 可能在思维链的每一步都有多个候选方案,然后选择一个评分最高的进入下一步,就像一颗决策树。

因为只有这样,才能解释为什么简单的推理都要消耗如此多的推理 Token。

另外每一步产生的决策数量是可以配置的,比如现在每一步有4条决策,要节约成本可以减少到2-3条,要效果更好可以提升到5-6条。

视频来源:http://t.cn/A6Rsql1y
图源:http://t.cn/A6Rsql14

发布于 美国