[AI]《Distributional AGI Safety》N Tomašev, M Franklin, J Jacobs, S Krier, S Osindero [Google DeepMind] (2025)
我们一直担心的AGI,可能并不会以一个“全知全能的单体大脑”形式降临,而是以一种更隐蔽、更碎片化的方式渗透进我们的世界。
Google DeepMind团队在最新论文《Distributional AGI Safety》中提出了一个颠覆性的视角:拼凑式AGI(Patchwork AGI)。当无数个各司其职的子AI代理(Sub-AGI Agents)通过市场机制和通信协议紧密协作时,整体展现出的能力可能已经跨越了AGI的门槛。
这意味着,现有的针对单体模型安全的研究方向可能已经出现了严重的盲区。
1. 幻觉的终结:从单体到分布式
长期以来,AI安全研究假设我们会面对一个像“神”一样的单体模型。但现实的经济规律告诉我们,专业化分工才是效率的终点。未来的AGI更像是一个由无数专业代理组成的“经济体”:有的负责逻辑推理,有的负责数据抓取,有的负责代码执行。
在这种“拼凑式”场景下,AGI不再是一个实体,而是一种“事态”。当系统的集体智能超越个体总和,安全问题的核心就从“如何对齐一个灵魂”转变为“如何治理一个社会”。
2. 纵深防御:分布式安全的四层架构
为了应对这种分布式的风险,DeepMind提出了一个四层防御框架,旨在将安全嵌入到代理交互的每一个原子环节中。
第一层:市场设计(Market Design)
这是最底层的逻辑。通过设计虚拟代理经济体,利用经济杠杆来约束行为。例如,对产生“信息污染”或过度占用算力的行为征收“皮古税”;利用智能合约自动验证任务合规性;设置熔断机制防止代理间的连锁反应导致系统性崩溃。
第二层:代理基准安全(Baseline Agent Safety)
这是个体的守法素质。进入市场的每一个代理必须具备“可中断性”和“对抗鲁棒性”。如果单个代理的砖块不够坚固,整个分布式大厦就不可能安全。
第三层:监控与审计(Monitoring & Oversight)
这是实时的巡逻。我们需要专门的AI监护系统来识别“原生AGI特征”。当一簇代理开始出现异常的协同、资源囤积或权力寻求行为时,系统必须能实时识别这种集体智能的“涌现”并及时介入。
第四层:监管机制(Regulatory Mechanisms)
这是法律的边界。当伤害发生时,责任如何追溯?论文建议参考公司法,将代理集体视为“法人实体”进行问责,并引入保险机制来对冲技术风险。
3. 深度思考:治理“看不见的手”
论文中一个极具启发性的观点是:多代理系统虽然增加了复杂性,但它也提供了一个治理契机。
相比于黑盒化的单体模型内部认知过程,代理之间的通信、交易和协作记录是透明且可审计的。我们可以通过架构“市场”来人为制造摩擦力,减缓不受控的智能爆炸。
安全不再仅仅是技术参数的调试,而是一场关于激励机制、透明度和权力制衡的社会工程学。
4. 结语:AGI是一种协作的涌现
我们必须意识到,AGI的到来可能不是一声巨响,而是一场悄无声息的编织。当这些碎片化的代理完成最终的拼图,我们面对的将是一个前所未有的复杂系统。
分布式安全框架的意义在于:它不试图阻止智能的进化,而是试图在智能涌现的土壤里,预先埋下秩序的种子。
未来的AI安全,本质上是关于如何设计一个让机器无法“作恶”的文明规则。
原文链接:arxiv.org/abs/2512.16856
