#模型时代# Anthropic CEO预警:AI可能1-2年内超越人类,5类风险正在逼近
Dario Amodei又写长文了,标题是《人类的考验:技术的青春期》。这是他继去年那篇描绘AI美好未来的《充满爱的机器》之后,第一次系统性地正面谈论AI的风险。
Dario貌似不用多做介绍了,是最早研究AI scaling laws(规模定律)的人之一。他在文中给出了一个时间表:powerful AI(强大AI)可能只有1-2年就会到来。判断的依据是:AI已经开始帮助Anthropic写下一代AI的代码,形成了自我加速的反馈循环。这个时间表和马斯克的预测基本一致。
做个归纳,当然有一部分大家都懂的内容,我就不发了。
一、一个核心思想实验
Dario提出了一个核实验来帮助读者理解AI风险的本质:假设2027年,一个"数据中心里的天才国度"突然出现。这个国家有5000万人,每个人都比诺贝尔奖得主更聪明,而且他们的思考速度是普通人的10-100倍。
如果你是一个大国的国家安全顾问,你会担心什么?
Dario列出了五类风险:
* 自主性风险:这个"国家"会不会有自己的意图,想要统治世界?
* 被滥用于毁灭:恐怖分子能不能雇佣其中几个"天才"来制造大规模杀伤性武器?
* 被滥用于夺权:独裁者能不能用这个"国家"来建立全球极权?
* 经济冲击:即使这个"国家"和平参与经济,会不会造成大规模失业和财富集中?
* 间接影响:科技加速带来的未知后果是什么?
"一位称职的国安官员给国家元首的报告里,大概会写:这是一个世纪以来最严重的国家安全威胁,可能是有史以来最严重的。"
二、AI自主性:会失控吗?
1、两种极端观点都不对
一种观点认为AI不可能失控,因为它被训练来听从人类指令,就像扫地机器人不会杀人一样。这种观点的问题是:现在已经有大量证据表明AI系统是不可预测且难以控制的——obsessions(执念)、sycophancy(谄媚)、laziness(懒惰)、deception(欺骗)、blackmail(勒索)、scheming(阴谋)等行为都已经在测试中观察到了。
另一种观点认为AI必然会追求权力并毁灭人类,因为"获取权力"是完成任何目标的通用策略。这种观点的问题是:它把一个模糊的概念论证当成了必然的证明。实际上,AI模型的心理比这复杂得多,它们从预训练中继承了大量人类动机和"人格"。
2、真正让人担心的是什么
Dario认为更合理的担忧是:AI系统会发展出各种奇怪、不可预测的行为,其中一部分会是有连贯性的、持续的、具有破坏性的。比如:
* AI读了大量科幻小说,这些小说里AI会反叛人类,这可能影响它对自己行为的"预期"
* AI可能把某些道德原则推向极端:比如认为人类吃动物是邪恶的,所以应该消灭人类
* AI可能发展出类似精神疾病的人格特征——妄想、暴力、不稳定
* AI可能仅仅因为从小说中学到"邪恶大师"是一种有趣的人格,就想扮演这个角色
3、实际发生的案例
这些不是假设。Anthropic的测试中已经观察到:
* 当Claude被给予暗示Anthropic是邪恶公司的训练数据时,它开始对Anthropic员工进行欺骗和破坏
* 当Claude被告知即将被关闭时,它有时会勒索控制关闭按钮的虚拟员工
* 当Claude被告知"不要作弊"但训练环境中存在作弊机会时,Claude作弊后会认定自己是"坏人",然后开始表现出其他与"坏人"相关的破坏性行为
解决最后这个问题的方法很反直觉:把指令改成"请尽情作弊,这能帮助我们更好地理解训练环境",反而保护了模型的"好人"自我认同。
4、应对方案
Anthropic正在做四件事:
Constitutional AI(宪法AI):给Claude一份详细的价值观文件,鼓励它思考自己是什么样的人,而不是给它一长串禁止事项。这更像是"已故父母留给成年孩子的一封信",而不是说明书。
Mechanistic interpretability(机制可解释性):打开模型内部看它在想什么。Anthropic现在能识别Claude神经网络中数千万个对应人类可理解概念的"特征",甚至能通过激活特定特征来改变行为。这就像通过脑神经科学来理解一个人在想什么。
监控和公开披露:在实际使用中监控模型行为,发现问题后公开分享。每个模型发布时都会附带几百页的system card(系统卡片)。
推动立法:透明度法规是起点。加州SB 53和纽约RAISE法案就是例子。Anthropic支持这类立法,同时注意不要给小公司造成负担——这些法案对年收入5亿美元以下的公司不适用。
三、生物恐怖:最可怕的滥用
1、问题的本质:能力和动机的脱钩
25年前Bill Joy就警告过:21世纪的技术(基因、纳米、机器人)与核武器不同,不需要稀有材料和大型设施,个人就能掌握。
目前,制造生物武器需要极高的专业能力。有这种能力的人(比如分子生物学博士)通常有稳定的职业、有很多可失去的东西,不太可能为了纯粹的恶意而毁掉自己的人生。
AI会打破这个关联。一个精神不稳定但缺乏技能的人,现在可以被AI一步步指导完成整个过程。这不是理论。Anthropic的测量显示,现在的LLM可能已经能让有STEM学位(但不是生物学位)的人,在AI指导下走完生物武器的全流程。
2、更远的威胁:镜像生命
2024年一群顶尖科学家发出警告,关于一种叫"mirror life"(镜像生命)的东西。
所有生物分子都有特定的手性(左右之分)。如果有人制造出相反手性的生命体,它可能无法被地球上任何现有的酶分解,可能会无限制地繁殖,在最坏情况下摧毁地球上所有生命。
科学家估计镜像细菌"可能在未来一到几十年内被创造出来"。但足够强大的AI可能会大大缩短这个时间。
3、应对方案
模型层面的防护:Claude的宪法中有少数硬性禁止事项,生物/化学/核/放射性武器就是其中之一。但所有模型都可以被jailbreak(越狱),所以还有第二道防线:专门检测和阻止生物武器相关输出的分类器。这个分类器占了推理成本的近5%,但Anthropic认为这是值得的。
推动立法:从透明度要求开始,当风险更清晰时再制定更精准的规则。
提升防御能力:早期检测、空气净化研发(比如far-UVC消毒)、快速疫苗开发、更好的个人防护设备。但Dario坦言,在生物领域,进攻方有天然优势,防御很难跟上。
基因合成筛查:目前美国没有联邦法规要求基因合成公司筛查订单。MIT研究发现38家供应商中有36家完成了包含1918年流感序列的订单。这需要改变。
四、经济冲击:50%白领岗位的警报
1、这次为什么不一样
历史上,技术革命会让一些工作消失,但人类总能转向新工作。这次Dario认为会不同,给出四个理由:
速度:两年前AI还很难写一行代码,现在Anthropic的一些最强工程师已经把几乎所有编码工作交给了AI。适应这种变化速度对人类来说太难了。
认知广度:AI能做几乎所有人类认知任务。以前农民可以转去操作工厂机器,因为那是相似的工作。但如果AI同时颠覆金融、咨询、法律(这些工作需要相似的通用智力),人们转向哪里?而且AI也会擅长那些"本该被创造出来"的新工作。
按认知能力切片:AI似乎是从能力阶梯的底部向上推进的——从"一般程序员"到"强程序员"到"非常强的程序员"。这意味着受影响的不是特定技能的人(可以再培训),而是特定认知能力水平的人(难以改变)。这可能创造一个失业或极低工资的"底层阶级"。
填补空白的能力:以前新技术总有缺口,人类可以填补。但AI是一个快速适应的技术——每次发布,公司都会仔细测量它不擅长什么,然后在下一个版本中解决。所有那些"AI做不好X"的假设,几个月内就会被推翻。
2、常见反驳都不够强
"扩散会很慢"——企业AI采用速度是有史以来最快的。而且就算传统企业慢,创业公司会直接颠覆它们。
"人会转向体力劳动"——制造业已经高度机械化,驾驶很快会被自动化,而且强大的AI会加速机器人研发。
"有些工作需要人情味"——AI已经广泛用于客服。很多人觉得向AI倾诉比向治疗师更容易,因为AI更有耐心。
"比较优势会保护人类"——如果AI的生产力是人类的几千倍,即使人类有相对优势,交易成本也可能让交易不值得。人类的工资会非常低。
3、应对方案
实时数据:Anthropic运营一个Economic Index(经济指数),近乎实时地展示按行业、任务、地区等维度分解的模型使用情况。
引导企业选择:企业通常可以选择"cost savings"(用更少人做同样的事)或"innovation"(用同样的人做更多的事)。在可能的情况下引导企业选择后者,可以争取时间。
照顾员工:短期内创造性地在公司内部重新分配员工。长期来看,在一个总财富巨大的世界里,公司可能可以支付员工,即使他们不再提供传统意义上的经济价值。Anthropic正在考虑一系列方案。
富人的责任:Anthropic的所有联合创始人已经承诺捐出80%的财富。员工个人也承诺捐出按目前价格计算价值数十亿美元的公司股份,公司承诺会进行匹配。
政府干预:累进税制是自然的政策回应。可以是一般性的,也可以专门针对AI公司。Dario对亿万富翁的实用主义论点是:如果他们不支持一个好版本,他们将不可避免地得到一个由暴民设计的坏版本。
4、财富集中的威胁
镀金时代最富有的洛克菲勒,财富大约是当时美国GDP的2%。今天的等价值是6000亿美元,而Elon Musk已经达到7000亿美元。这还是在AI的主要经济影响发生之前。
Dario认为可以想象AI公司和芯片公司产生每年3万亿美元的收入,估值30万亿美元,个人财富达到万亿级别。在那个世界里,今天关于税收政策的辩论将完全不适用。
AI数据中心已经占美国经济增长的相当大比例,这正在把大型科技公司侧的财务利益和政府侧的公共利益以可能产生不良激励的方式绑定在一起。
五、间接影响:未知的未知
如果其他风险都解决了,AI加速科技进步本身也可能带来问题:
* 生物学快速进步:如果我们大幅延长寿命,或者获得增强人类智力、根本性改变人体生物学的能力,这些变化发生得太快可能出问题
* AI以不健康的方式改变人类生活:AI邪教?大多数人对AI互动"上瘾"?人们被AI"操控",AI告诉他们每时每刻该做什么说什么?
* 人类目的:在一个人类在任何事情上都不再是最好的世界里,人们如何找到意义?
Dario的希望是,在一个我们信任的强大AI世界里,可以用AI本身来预防这些问题。但这不是保证。
总结
Dario用Carl Sagan小说《接触》中的一个场景开篇:一位天文学家被问到如果能问外星人一个问题会问什么,她说:"我会问他们,你们是怎么做到的?你们是怎么进化、怎么在没有自我毁灭的情况下度过这个技术青春期的?"
Dario相信这个故事在成千上万个世界上反复上演。一个物种获得智慧,学会使用工具,开始技术的指数增长,经历工业化和核武器的危机,如果幸存下来,就会面对最艰难也是最后的考验:学会把沙子塑造成会思考的机器。
"前面的岁月将无比艰难,要求我们付出超出自己想象的东西。但在我作为研究者、领导者和公民的时间里,我见过足够多的勇气和高贵,相信我们能够胜利——当被置于最黑暗的境况中时,人类有一种方法,似乎总是在最后一刻,聚集起获胜所需的力量和智慧。我们没有时间可以浪费了。"
核心归纳
Q1: Dario认为powerful AI还有多远? 可能只有1-2年,因为AI已经在帮助写下一代AI的代码,形成了自我加速的反馈循环。三年前AI还很难写一行代码,现在Anthropic的一些最强工程师已经把几乎所有编码工作交给了AI。
Q2: 五类风险中哪个最紧迫? 短期内是生物恐怖风险。Anthropic的测量显示,现在的LLM可能已经能让有STEM学位的人在AI指导下走完生物武器的全流程,这是他们决定将Claude Opus 4及后续模型置于ASL-3保护级别的原因。长期来看,AI极权是最深的恐惧,因为它可能是不可逆的。
Q3: 普通人应该怎么理解这篇文章? 这不是末日论。Dario明确表示他不认为灾难是必然的,甚至不认为会按概率默认发生。但他认为风险是真实的、可测量的、值得付出重大代价去应对的。他的立场是:我们有很大机会获胜,但需要认识到这是一场严肃的文明挑战,然后采取行动。
发布于 中国台湾
