【#姚班大神炸裂证明：CoT能无限提升Transformer#】近日，姚班大神马腾宇等人发布了一篇震撼学术界的论文，详细证明了Chain of Thought (CoT)的强大能力。他们展示了通过引入CoT，Transformer模型不仅可以有效解决简单问题，还能突破性地解决更复杂的任务。论文中的核心论点在于：即便是恒定深度的

【#姚班大神炸裂证明：CoT能无限提升Transformer#】

近日，姚班大神马腾宇等人发布了一篇震撼学术界的论文，详细证明了Chain of Thought (CoT)的强大能力。他们展示了通过引入CoT，Transformer模型不仅可以有效解决简单问题，还能突破性地解决更复杂的任务。

论文中的核心论点在于：即便是恒定深度的Transformer，通过增加中间的推理步骤（CoT），也能够解决P/poly范围内任意复杂的问题。具体来说，论文证明，利用恒定比特精度和O(log n)嵌入大小的Transformer，通过T步CoT可以解决任何由T个布尔电路计算的问题。这为深度学习模型在复杂问题上的应用开辟了全新可能性。

实验结果也相当亮眼。比如，在处理置换群组合和迭代平方等典型的序列化计算任务时，单层Transformer加入CoT后，表现远超传统模型，解决这些问题的能力显著增强。同时，实验还验证了在电路值问题上，通过CoT，甚至仅有一层的Transformer也可以成功模拟任意布尔电路的逻辑，解决这类复杂问题。这种“无上限”的推理能力，展示了Transformer未来在深度学习中的无限潜力。

与现有技术相比，传统的Transformer在处理复杂逻辑任务时深度和计算资源需求较大，而CoT则提供了一条轻量化路径。论文指出，即便是深度较小的模型，只要通过合理设计的CoT步骤，也能大幅提升计算能力。这种方法特别适用于需要串行计算和逻辑推理的任务，而不仅仅局限于并行任务。

就在OpenAI o1推出不久后，这篇论文的作者之一 Denny Zhou（DeepMind 的首席科学家）发出感慨：“LLM 推理能力的极限是什么？天空才是极限。我们已经用数学方法证明了 Transformer 可以解决任何问题，只要允许它们根据需要生成任意数量的中间推理 token。值得注意的是，恒定深度就足够了。”

Bindu Reddy 一针见血地指出：“谷歌已经放弃了这个，以及过去几篇关于 CoT 的论文，而这篇论文正好说明了 o1 的性能。这证明了 Transformer 可以通过在推理过程中生成中间推理 token 来解决大多数问题。值得注意的是，他们做了 A++ 的研究，但在 Gemini 方面仍然落后。”OpenAI o1 的核心技术：强化学习 (RL) + “私密思维链”，o1 模型正是利用了 RL 和“私密思维链”这两项技术，实现了 AI 推理能力的巨大飞跃。

OpenAI o1 模型的成功，正是对这篇论文最好的证明！它不仅验证了 CoT 技术的可行性和有效性，也让我们看到了 AI 推理领域的巨大潜力！谷歌痛失好局，令人惋惜，但 o1 的成功也证明了 AI 推理领域的巨大潜力！

重点关注：
1、CoT显著增强Transformer的逻辑推理能力，即使在低深度模型中表现依旧优越。
2、 Transformer通过CoT可以解决复杂的布尔电路问题，提升在P/poly问题上的表现。
3、该方法为未来模型轻量化和效率提升提供了新的思路。

论文：http://t.cn/A6EzG5q1

#Transformer #人工智能[超话]##ChatGPT[超话]##AI探索计划#

发布于北京