#问答时间# 问：之前先生在留言中提到“...只要不是像在围棋规则明确的情况下自我无限对弈...”。实际上这刚好是个值得讨论的话题，不过当时DeepSeek R1模型尚未放出，讨论只限于这一代AI。现在R1已经放出来，想借机会补充下一代AI的可能方向以及对中美博弈的影响。我的观点是，下一代AI极有可能是

#问答时间#

问：之前先生在留言中提到“...只要不是像在围棋规则明确的情况下自我无限对弈...”。实际上这刚好是个值得讨论的话题，不过当时DeepSeek R1模型尚未放出，讨论只限于这一代AI。现在R1已经放出来，想借机会补充下一代AI的可能方向以及对中美博弈的影响。

我的观点是，下一代AI极有可能是model-based reinforcement learning技术路线。假如该路线走通，会对中美博弈有什么影响？首先，一旦成功，下一代真AI就会有类似下棋无限自我对弈的能力，对数据的需求下降，但国家整体算力就有很大影响，也会有真的killing app出现。其次，粗略估计发展需要十年时间。这是只是一个粗糙的数量级估计，简单基于过去每十年会有一代技术进步，以及新一代学者需要十年左右将技术做成熟（一个博士生大概五年毕业，评副教授大概六年等等）。也就是说，中方需要在未来十年内打赢芯片产业，为下一代AI提前做好算力准备，否则又要被卡脖子。

为什么是model-based reinforcement learning？强化学习探讨的是AI Agent和Environment之间的有策略的互动关系，以最大化回报，例如AlphaGo下围棋超越了人类。强化学习才是AI的正统后续，因为它的理论框架是更完善的。

DeepSeek R1论文中有意思的发现是模型DeepSeek Zero可以只通过强化学习涌现长链推理, 所以取名Zero，以类比AlphaGo Zero。但是两者实际是不一样的，前者还远达不到后者那样自己无限下棋的能力。因为本质上AlphaGo采用的强化学习是model-based的，而DeepSeek Zero强化学习GRPO仍旧还只是model-free的。Model-based指的是AI Agent内部有对外部世界建立模型，会模拟外部环境的运行，而model-free则相反。很显然，只有AI内部建立起对外部世界的模型，你才能说AI Agent真的“理解了世界，才能在基础上做可靠的推理。这样的AI需要的训练数据也少的多，它可以大部分时间用自己内部的模型推演（思考），不需要每次行动都要和外部世界互动，获取反馈。AlphaGo就是典型的基于模型的强化学习，只不过特殊之处在于棋盘模型相对简单，可以直接人工构建在Agent中（见附注），并不需要自己去学习。现实中通用的AI显然要自己去学习世界模型，我们一般人类意义上的学习理解，指的都是这种需要学习世界模型的Model-based强化学习，当然也要难的多。具体的讨论可参见Yann LeCun的相关观点。所以学术界应当探索如何让AI学习外部世界，走model-based reinforcement learning的真AI路线。

@王孟源dudu 答:我們上一輪討論結束沒幾天，R１就出世，當時我也立刻注意到它與Alpha　Zero的類似。我同意這明顯是一個新的、重要的進步方向，但對其實用前景有多遠就沒有你樂觀了。我認爲最可能是本世代AI即便有了這個加强，依舊只能做到輔助性的工作，只不過輔助得更多更深罷了。換句話說，我的AI三論斷（１.做不到通用邏輯智能，AGI；２.中方已然成功超趕，美方無力翻盤；３.AI開發公司不會成爲商業上的Killer　App，亦即超高營收、超高利潤的壟斷企業）依舊成立。請注意，我們對Killer　App似乎有不同的定義。此外，中國企業原本就不像美企那樣專心致志地追求壟斷和暴利，所以（２）和（３）之間有一些先天關聯。

我的稍微悲觀來自以下幾點考慮：首先，R１這種多層推演，固然可以堆叠出更深入的邏輯探討，但也對小錯誤更加敏感；換句話說，必須能夠步步糾錯，而當前看不到任何高效糾錯的機制，連潛在的理論可能都談不上，只能寄望於出人意料的湧現，但既然是出人意料，當然是小機率事件。其次，真正的高等邏輯問題，例如博客反復示範的社科類議題，本身就含有不可約的不確定性，不止信號本身模糊，更經常含有隱性假設，例如直接統計出來的絕對機率其實是特定前提下的相對機率（參考“歷史終結論”忽略了殖民掠奪的歷史遺留），這對Reinforcement　Learning特別不友好。第三，邏輯推演並不只是簡單因果規則的無限堆積。我以碳基人腦來推展邏輯智能的６０年經驗中，面臨過許許多多的佯謬和必須先擱置的問題，並且總結出一系列常用的辯證原則，例如Russell's Teapot和Occam's Razor，都不像是反復Reinforcement　Learning能自創的，畢竟“學而不思則罔，思而不學則殆”，由於Reinforcement　Learning的黑箱本質，它正是極端的“思而不學”。這裏的“學”指的是學習認知架構和辯證方法，AI拼命從頭實驗，自行摸索方法和原則，很難不入歧途。

我並不是說不可能有湧現突破，更不是說不必投資努力，只不過在估算研發AGI的成功機率為明確小於５０％罷了。但我也説過，只要成功機率大於１％就必須全力以赴，０.１％甚至０.０１％也值得認真對待，而本世代AI架構持續發展成AGI的機率可能大於０.１％。但AI的真正價值，在於前面提到的，對經濟活動的輔助功能，尤其是白領工作；這有近乎１００％的機率會對經濟生產做出極大的貢獻，所以即使AGI的成功機率是零，也值得國家社會全力投入。

今天有朋友私下詢問這個話題的後續，也就是上面我所提的R1多層推演時無法自我糾錯的問題，我提供給他更進一步的回復，在此和讀者分享。

因爲本世代AI沒有真正的宏觀理解能力，也沒有自我糾錯的機制，每多做一層推演，就必然有若干機率會纍積新的錯誤，於是N-層推演的有效性會隨N的增加先增高到某個最優值之後迅速衰減。數學上的近似展開也有類似現象，叫做Asymptotic Approximation或者Poincare Expansion，亦即Non-convergent Series，大一數學應該教過；與其相反、能隨N趨近無限大仍然持續優化的，則叫做Convergent Taylor Expansion，屬於高中級別。
2025-02-23

发布于北京