北大AI鱼博士 24-09-19 23:06
微博认证:科技博主

【#姚班大神炸裂证明:CoT能无限提升Transformer#】

近日,姚班大神马腾宇等人发布了一篇震撼学术界的论文,详细证明了Chain of Thought (CoT)的强大能力。他们展示了通过引入CoT,Transformer模型不仅可以有效解决简单问题,还能突破性地解决更复杂的任务。

论文中的核心论点在于:即便是恒定深度的Transformer,通过增加中间的推理步骤(CoT),也能够解决P/poly范围内任意复杂的问题。具体来说,论文证明,利用恒定比特精度和O(log n)嵌入大小的Transformer,通过T步CoT可以解决任何由T个布尔电路计算的问题。这为深度学习模型在复杂问题上的应用开辟了全新可能性。

实验结果也相当亮眼。比如,在处理置换群组合和迭代平方等典型的序列化计算任务时,单层Transformer加入CoT后,表现远超传统模型,解决这些问题的能力显著增强。同时,实验还验证了在电路值问题上,通过CoT,甚至仅有一层的Transformer也可以成功模拟任意布尔电路的逻辑,解决这类复杂问题。这种“无上限”的推理能力,展示了Transformer未来在深度学习中的无限潜力​。

与现有技术相比,传统的Transformer在处理复杂逻辑任务时深度和计算资源需求较大,而CoT则提供了一条轻量化路径。论文指出,即便是深度较小的模型,只要通过合理设计的CoT步骤,也能大幅提升计算能力。这种方法特别适用于需要串行计算和逻辑推理的任务,而不仅仅局限于并行任务。

就在OpenAI o1推出不久后,这篇论文的作者之一 Denny Zhou(DeepMind 的首席科学家) 发出感慨:“LLM 推理能力的极限是什么?天空才是极限。我们已经用数学方法证明了 Transformer 可以解决任何问题,只要允许它们根据需要生成任意数量的中间推理 token。值得注意的是,恒定深度就足够了。”

Bindu Reddy 一针见血地指出:“谷歌已经放弃了这个,以及过去几篇关于 CoT 的论文,而这篇论文正好说明了 o1 的性能。这证明了 Transformer 可以通过在推理过程中生成中间推理 token 来解决大多数问题。值得注意的是,他们做了 A++ 的研究,但在 Gemini 方面仍然落后。”OpenAI o1 的核心技术:强化学习 (RL) + “私密思维链”,o1 模型正是利用了 RL 和“私密思维链”这两项技术,实现了 AI 推理能力的巨大飞跃。

OpenAI o1 模型的成功,正是对这篇论文最好的证明!它不仅验证了 CoT 技术的可行性和有效性,也让我们看到了 AI 推理领域的巨大潜力!谷歌痛失好局,令人惋惜,但 o1 的成功也证明了 AI 推理领域的巨大潜力!

重点关注:
1、CoT显著增强Transformer的逻辑推理能力,即使在低深度模型中表现依旧优越。
2、 Transformer通过CoT可以解决复杂的布尔电路问题,提升在P/poly问题上的表现。
3、该方法为未来模型轻量化和效率提升提供了新的思路。

论文:http://t.cn/A6EzG5q1

#Transformer #人工智能[超话]##ChatGPT[超话]##AI探索计划#

发布于 北京