谷歌揭示AI推理模型内部辩论机制

#人工智能[超话]#

谷歌刚刚证明，推理模型并非在思考，而是在争论。

> DeepSeek-R1 自发地在其自身的思维链条中自发地产生内部多智能体的辩论。没有人对其进行过这样的训练。通过提高准确性的强化学习机制使其自动形成这种状态。

该模型重新发现了几个世纪以来认识论学说早已知晓的事实：稳健的推理是一个社会过程。> 谷歌的研究人员分析了包括 DeepSeek-R1 和 QwQ-32B 在内的前沿推理模型，并发现了出乎所有人意料的结果。这些模型并非通过思考更长时间来提高性能。它们通过内部争论来提高性能。在进行辩论、质疑、验证和相互反驳的思维观点链条内部，会出现不同的认知视角。

研究人员将其称为“思想社会”。它从因果关系上解释了在复杂推理任务上所具有的准确性优势。当他们明确地预先设定并放大这种多主体的内部对话时，性能进一步提高。
> 关键在于这一出现结果。这些模型都没有经过训练来产生内部辩论。当强化学习仅仅因为模型得出正确答案而给予奖励时，多视角的对话行为会自然而然地增多。

这种优化压力再次证实了认知科学数十年来所提出的观点：
强大的推理能力本质上是社会性的，即便它发生在单个个体的头脑中也是如此。该模型并未学会思考，而是学会了自我辩论。

> 这对于我们如何构建人工智能具有重要意义。如今的推理模型只会生成一个单一的对话，研究人员将其称为“人工智能镇议会记录”。但有效的团队并非如此运作。

它们有层级结构、专业化分工、劳动分工、有条理的分歧。头脑风暴、魔鬼式质疑、建设性的冲突。这些都不是当前系统中预先设计好的内容。只有当它们出现时才会偶然地出现。整个团队科学、小团体社会学和组织心理学的整个工具包从未应用于人工智能推理中。

这就是下一个设计空间。谷歌所提出的更广泛观点是：

→ 人工智能的“奇点”并非指一种神一般的意识，而是指一种多元、社会性的、混合型的智能

→ 理性模型会自发地产生内部的多智能体辩论，而无需经过专门训练来实现这一过程

→ 仅为了提高准确性而进行的强化学习会产生对话式、多视角的行为

→ 以往的所有智能爆炸（如灵长类动物的社会群体、人类语言、书写、制度）都是社会性的，而非个体性的

→ 目前设计的强化学习与反馈机制（RLHF）本质上是一种父母与子女的纠正模式，根本无法扩展到数十亿个智能体的规模

→ 另一种选择是：采用法庭和市场那样的制度化协调角色、规范和协议，而非个体的道德准则

> 以往的奇点框架一直假定智能是一种单一的量，会不断上升。而谷歌的观点是，智能从来都不是单一的量。灵长类动物的智能与社会群体的规模成正比，而非与栖息地的难度成正比。

人类语言创造了托马塞洛所说的文化棘轮式发展——知识在世代之间不断积累，而没有任何一个个体能够重新构建整个体系。书写和法律将社会智能外化为基础设施。一位苏美尔时期的文书在运行谷物账目系统时，并未理解其宏观经济功能。该系统比他本人要智能得多。人工智能是这一序列中的下一步，而非对其的突破。

> 被转移到硅片上的并非抽象推理能力。而是以外在形式呈现的社会智能，每一个参数都是交流交换的压缩残留物，在新的基底上与自身相遇。表现最佳的模型并非计算能力最强的那些。它们是那些最能模拟最初产生人类知识的社会过程的模型。> 神奇时刻并不会到来。它已经存在，并且与任何人所预测的完全不同。

>并非有一个神一般的意识在上升。数十亿个主体在争论、分支、辩论、相互治理。智能像一座城市一样增长，而非单一的元意识。

#人工智能##AI技术派##科学[超话]##AI大模型##AI创造营#

发布于北京