王孟源dudu
25-03-02 09:12 微博认证:观察者网 专栏作者

#问答时间#

问:之前先生在留言中提到“...只要不是像在围棋规则明确的情况下自我无限对弈...”。实际上这刚好是个值得讨论的话题,不过当时DeepSeek R1模型尚未放出,讨论只限于这一代AI。现在R1已经放出来,想借机会补充下一代AI的可能方向以及对中美博弈的影响。

我的观点是,下一代AI极有可能是model-based reinforcement learning技术路线。假如该路线走通, 会对中美博弈有什么影响?首先,一旦成功,下一代真AI就会有类似下棋无限自我对弈的能力,对数据的需求下降,但国家整体算力就有很大影响,也会有真的killing app出现。其次,粗略估计发展需要十年时间。这是只是一个粗糙的数量级估计,简单基于过去每十年会有一代技术进步,以及新一代学者需要十年左右将技术做成熟(一个博士生大概五年毕业,评副教授大概六年等等)。也就是说,中方需要在未来十年内打赢芯片产业,为下一代AI提前做好算力准备,否则又要被卡脖子。

为什么是model-based reinforcement learning?强化学习探讨的是AI Agent和Environment之间的有策略的互动关系,以最大化回报,例如AlphaGo下围棋超越了人类。强化学习才是AI的正统后续,因为它的理论框架是更完善的。

DeepSeek R1论文中有意思的发现是模型DeepSeek Zero可以只通过强化学习涌现长链推理, 所以取名Zero,以类比AlphaGo Zero。但是两者实际是不一样的,前者还远达不到后者那样自己无限下棋的能力。因为本质上AlphaGo采用的强化学习是model-based的,而DeepSeek Zero强化学习GRPO仍旧还只是model-free的。Model-based指的是AI Agent内部有对外部世界建立模型,会模拟外部环境的运行,而model-free则相反。很显然,只有AI内部建立起对外部世界的模型,你才能说AI Agent真的“理解了世界,才能在基础上做可靠的推理。这样的AI需要的训练数据也少的多,它可以大部分时间用自己内部的模型推演(思考),不需要每次行动都要和外部世界互动,获取反馈。AlphaGo就是典型的基于模型的强化学习,只不过特殊之处在于棋盘模型相对简单,可以直接人工构建在Agent中(见附注), 并不需要自己去学习。现实中通用的AI显然要自己去学习世界模型,我们一般人类意义上的学习理解,指的都是这种需要学习世界模型的Model-based强化学习, 当然也要难的多。具体的讨论可参见Yann LeCun的相关观点。所以学术界应当探索如何让AI学习外部世界,走model-based reinforcement learning的真AI路线。

@王孟源dudu 答:我們上一輪討論結束沒幾天,R1就出世,當時我也立刻注意到它與Alpha Zero的類似。我同意這明顯是一個新的、重要的進步方向,但對其實用前景有多遠就沒有你樂觀了。我認爲最可能是本世代AI即便有了這個加强,依舊只能做到輔助性的工作,只不過輔助得更多更深罷了。換句話說,我的AI三論斷(1.做不到通用邏輯智能,AGI;2.中方已然成功超趕,美方無力翻盤;3.AI開發公司不會成爲商業上的Killer App,亦即超高營收、超高利潤的壟斷企業)依舊成立。請注意,我們對Killer App似乎有不同的定義。此外,中國企業原本就不像美企那樣專心致志地追求壟斷和暴利,所以(2)和(3)之間有一些先天關聯。

我的稍微悲觀來自以下幾點考慮:首先,R1這種多層推演,固然可以堆叠出更深入的邏輯探討,但也對小錯誤更加敏感;換句話說,必須能夠步步糾錯,而當前看不到任何高效糾錯的機制,連潛在的理論可能都談不上,只能寄望於出人意料的湧現,但既然是出人意料,當然是小機率事件。其次,真正的高等邏輯問題,例如博客反復示範的社科類議題,本身就含有不可約的不確定性,不止信號本身模糊,更經常含有隱性假設,例如直接統計出來的絕對機率其實是特定前提下的相對機率(參考“歷史終結論”忽略了殖民掠奪的歷史遺留),這對Reinforcement Learning特別不友好。第三,邏輯推演並不只是簡單因果規則的無限堆積。我以碳基人腦來推展邏輯智能的60年經驗中,面臨過許許多多的佯謬和必須先擱置的問題,並且總結出一系列常用的辯證原則,例如Russell's Teapot和Occam's Razor,都不像是反復Reinforcement Learning能自創的,畢竟“學而不思則罔,思而不學則殆”,由於Reinforcement Learning的黑箱本質,它正是極端的“思而不學”。這裏的“學”指的是學習認知架構和辯證方法,AI拼命從頭實驗,自行摸索方法和原則,很難不入歧途。

我並不是說不可能有湧現突破,更不是說不必投資努力,只不過在估算研發AGI的成功機率為明確小於50%罷了。但我也説過,只要成功機率大於1%就必須全力以赴,0.1%甚至0.01%也值得認真對待,而本世代AI架構持續發展成AGI的機率可能大於0.1%。但AI的真正價值,在於前面提到的,對經濟活動的輔助功能,尤其是白領工作;這有近乎100%的機率會對經濟生產做出極大的貢獻,所以即使AGI的成功機率是零,也值得國家社會全力投入。

今天有朋友私下詢問這個話題的後續,也就是上面我所提的R1多層推演時無法自我糾錯的問題,我提供給他更進一步的回復,在此和讀者分享。

因爲本世代AI沒有真正的宏觀理解能力,也沒有自我糾錯的機制,每多做一層推演,就必然有若干機率會纍積新的錯誤,於是N-層推演的有效性會隨N的增加先增高到某個最優值之後迅速衰減。數學上的近似展開也有類似現象,叫做Asymptotic Approximation或者Poincare Expansion,亦即Non-convergent Series,大一數學應該教過;與其相反、能隨N趨近無限大仍然持續優化的,則叫做Convergent Taylor Expansion,屬於高中級別。
2025-02-23

发布于 北京