高飞 26-04-14 13:32
微博认证:至顶科技创始人 AI博主

#模型时代# 斯坦福《2026人工智能指数报告》:美国吸引AI人才的速度比2017年少了89%

2026年4月发布的第九版《人工智能指数报告》(AI Index Report 2026),由斯坦福大学以人为本人工智能研究院(HAI)出品,负责人是Ray Perrault、Yolanda Gil、Jack Clark等。这份报告每年一出,厚度接近一本书,把全球AI在研发、性能、经济、科学、医疗、教育、政策、舆论上的进展压到一份数据集里。今年是第九版,第一次把科学和医学单列成章。

这份报告要回答的问题其实只有一个:过去这一年,AI能力冲到哪儿了,围绕它建的那套东西,评测方法、治理框架、教育体系、劳动力市场,还跟得上吗?

结论是跟不上。能力曲线还在往上走,基准测试在几个月里被打穿,企业采用率冲到88%,但负责任AI的进展几乎原地踏步,AI事故数涨到362起,美国能吸引到的AI人才比2017年少了89%。报告每一章都在讲这个剪刀差。

---

一是中美模型差距基本抹平了。2025年2月DeepSeek-R1短暂追平美国头部模型,到2026年3月,Anthropic的顶级模型在Arena排行榜上只领先最强的中国模型2.7%。Anthropic、xAI、Google、OpenAI、阿里、DeepSeek六家的Elo分都挤在顶层25分以内。过去那种"美国领先一代"的叙事,这一年里没了。

二是采用速度快过历史上任何一次技术扩散。生成式AI用三年做到53%的人口渗透率,比PC和互联网都快。新加坡61%、阿联酋54%,美国只有28.3%,排第24位。这不是"美国用不起"的问题,是美国已有的信息化存量太大,新工具进入门槛反而高。

三是初级岗位在AI生产力最明显的那几个领域先挨刀。软件开发、客服这类地方AI能提效14%到26%,而美国22到25岁的软件开发者,2024年到现在就业人数降了近20%,同时中老年开发者在继续增长。裁的是刚入行的,留的是资深的。

四是美国国会听证会上的AI话事人换了。2017年美国国会涉AI的听证证人总数只有5人,到2025年变成102人,八年涨了二十倍。里面产业界代表的占比从13%升到37%,成了最大群体,学术界反而降到15%。这意味着接下来几年美国的AI立法框架,产业界直接参与书写。

---

下面按报告的逻辑顺序解读。

1、先看一个反差:AI能拿IMO金牌,但看不准钟表。

Google Gemini Deep Think 2025年在国际数学奥林匹克(IMO)上拿到金牌级分数。同一批模型里,最好的一个在"读模拟时钟指针时间"这件事上,正确率只有50.1%,跟抛硬币差不多。

这就是研究圈里说的"参差前沿"(jagged frontier):AI在某些任务上超过人类专家,在另一些任务,甚至是小孩都会的任务上完全失败。报告反复强调,不要再用一两个基准分数去判断"AI整体水平",因为这东西本来就不是整体均匀推进的。

2、基准测试寿命以月计。

"人类最后考试"(Humanity's Last Exam)是一个专门设计来难住AI、偏向人类专家的题库。前沿模型一年之内在上面多拿了30个百分点。SWE-bench Verified这个编程基准,一年里从60%冲到接近100%的人类水平。

意思是,新基准刚发布,几个月就被打穿。过去十年业内靠基准测试来衡量进展,现在这套测量工具本身跟不上了。报告把这称为"可测量性危机",不是能力不在涨,是能用来说"AI涨了多少"的标尺在崩。

3、企业采用到了88%,但AI Agent还没真的铺开。

受访企业里88%已经在至少一个业务环节用生成式AI,70%在至少一个业务部门用上了。但AI Agent,可以自主规划多步任务的那种,在几乎所有业务职能里的部署率还是个位数。

这是两件事:用AI是一回事,让AI自己去干活是另一回事。前者已经完成,后者刚开始。报告里有一张关于Agent部署的表,几乎所有业务线都在3%到8%之间,只有软件工程稍高。企业还在观望阶段。

4、消费者端一年吃下1720亿美元的免费午餐。

报告做了一次生成式AI对美国消费者"消费者剩余"(consumer surplus,经济学里指消费者愿意付的价格和实际付的价格之间的差额)的估算:2026年初达到每年约1720亿美元,比一年前的1120亿涨了54%,用户人均价值三倍。

关键是"这些工具大部分是免费或接近免费的"。这笔价值没有进入任何公司的营收报表,也没有进入GDP统计,但它是真实发生的效用转移。这是过去的技术扩散里少见的结构,PC和互联网普及的时候,早期用户是要付钱的。

5、投资的天平在美国那边压得很重。

2025年美国私人AI投资2859亿美元,中国124亿美元,差了23倍。美国当年新融资的AI公司1953家,是第二名的十倍以上。

但这个比较有个前提:只看私人投资会低估中国。中国政府引导基金2000年到2023年向AI领域累计投入约1840亿美元,这部分没计入私人投资口径。另一个对照数字:美国政府2013年到2024年在AI相关合同和拨款上一共花了约204亿美元,政府花的钱只有私人一年投的不到十分之一。

6、TSMC之外,美国最大的问题是留不住人了。

过去美国是全球AI人才的终点站,现在不是了。迁入美国的AI研究者和开发者数量比2017年少了89%,而且降速在加快,光是最近一年就降了80%。美国本土AI人才存量仍然世界第一,但吸引新人的速度是十年来最低的。

报告没有给出原因诊断,但数据曲线跟特朗普政府2025年上任后的签证政策调整时间轴对得上。

7、把"负责任AI"的报告卡拿出来,一半是空白。

这是报告里最不被媒体提的章节,但数据最扎眼。几乎所有主流前沿模型厂商都会公布自己在能力基准测试上的分数,比如SWE-bench多少分、MMLU多少分。但负责任AI相关的基准,包括安全、公平性、隐私、事实性,报告发布率低得多,各家口径也不一样。

有记录的AI事故从2024年的233起涨到2025年的362起。更麻烦的是,一项最近的实证研究发现,训练技巧如果针对"安全性"优化,会显著拉低"准确性";优化"公平性",会削弱别的指标。负责任AI的几个维度之间并不是都能同时变好的,这个权衡关系业内也还没理清楚。

8、AI主权成了国家战略关键词,但算力没跟上。

"AI主权"(AI sovereignty)指的是一个国家对自己AI能力的掌控权,不受别国模型、芯片、数据管道卡脖子。2024年新出台的AI国家战略里,一半以上来自新兴经济体;到2025年,撒哈拉以南非洲、中亚、中东又多了一批国家在制定战略。

但基础设施分布不均。欧洲和中亚地区政府支持的AI超算集群,2018年3个,2025年44个;南亚2个、拉美3个、中东北非8个。战略写在纸上容易,超算建起来难。

9、开源这一块在重新分配世界。

GitHub上的AI项目数达到560万,Hugging Face上传量从2023年起翻了三倍。地理分布上有个变化:过去欧洲是第二梯队,现在"世界其他地区"(除美、中、欧之外)的贡献量已经超过欧洲,正在逼近美国。

这个变化的一个结果是:多语种模型和多语种基准测试开始变多。过去AI研究几乎只用英文数据,现在用印地语、阿拉伯语、斯瓦希里语训练和评测的模型多了起来。开源没有改变谁在生产最强模型,但改变了谁在参与。

10、小模型在科学领域打败大模型。

报告第一次把"AI for Science"单列成章,里面有几个反直觉的发现。MSAPairformer是一个1.11亿参数的蛋白质语言模型,在ProteinGym基准测试上超过了之前所有领先方法。GPN-Star是一个2亿参数的基因组学模型,表现超过了一个参数量比它大近200倍的模型。

这跟通用大模型"越大越强"的规律相反。原因是科学数据本身稀缺而高质量,比如蛋白质结构数据、基因组数据有严格的实验验证,训练效率可以很高。通用大模型的参数军备竞赛在这个领域不成立。

另一个对照:通用AI 90%以上的前沿模型来自产业界,但科学AI基础模型大多来自学术和政府机构,并且通常是国际合作的产物。

11、能做化学题的模型,复现不了一篇天文学论文。

同一批前沿模型,在ChemBench上2700多道化学题的平均分超过人类化学专家。但到了ReplicationBench,一个要求模型端到端复现已发表天体物理学论文的测试,前沿模型的得分低于20%。在UnivEarth的地球观测题上,大模型Agent准确率33%,它们写的代码58%会跑失败。

做题和做研究不是一件事。做题靠的是模式匹配和知识覆盖,做研究需要假设、设计实验、排查错误、重跑分析。报告把这个落差叫做"AI for Science的能力天花板"。

12、医生写病历的时间少了八成。

2025年美国医院大规模部署"临床笔记自动生成"工具:医生跟病人聊天时,AI在后台录音转写并生成符合格式的病历。多家医院系统报告医生写病历时间减少高达83%,职业倦怠明显下降,有一个医院系统报告投资回报率112%。

这是报告里少数"AI落地效果已经被跑通"的案例。但报告也指出,这是例外。对500多项临床AI研究做的综述发现,近一半研究用的是考试题而不是真实病人数据,只有5%用了真实临床数据来验证。大多数医疗AI的有效性证据还非常薄。

13、FDA批了258个AI医疗设备,大部分没做新临床试验。

FDA在2025年批准了258个AI医疗设备上市。但大部分是通过"器械修改路径"走的,也就是说,它们是已有设备的AI改版,监管部门认可"既有安全性和有效性证据",不强制要求新的随机对照试验。在有临床研究的那部分设备里,只有2.4%是基于随机试验数据。

这不是说这些设备不安全,是说监管路径本身允许绕开最严格的证据门槛。临床医生部署这些工具的时候,它们背后的证据链其实比传统药品或器械薄得多。

14、学生全在用AI,学校还没准备好。

超过80%的美国高中生和大学生现在用AI做学校相关的事。但只有一半的中学和高中有AI相关政策,只有6%的老师说这些政策"清晰"。

中国和阿联酋从2025-26学年起在国家层面强制AI教育入课堂。美国还停留在各学校各自摸索的阶段。另一个信号:美国和加拿大的新AI博士数量2022到2024年涨了22%,但这批人全部流向了学术界,没去产业界,反转了过去十年AI博士主要进企业的趋势。

15、专家和公众隔着50个百分点的鸿沟。

问同一个问题,"AI对人们的工作会有正面影响吗",73%的AI专家说会,23%的美国公众说会。50个百分点的差距。经济影响(69% vs 21%)、医疗(84% vs 44%)上也差得差不多。

只有两件事专家和公众看法一致:AI会损害选举(两边都担心),AI会损害人际关系(两边都担心)。

信任层面,美国人对本国政府监管AI的信任度只有31%,是被调查国家里最低的。全球范围内,欧盟被认为是最可靠的AI监管方,高于美国和中国。

16、训练一个Grok 4,排7万多吨二氧化碳。

Grok 4的训练碳排放估算为72,816吨CO₂当量。AI数据中心电力容量已经涨到29.6 GW,相当于纽约州峰值用电量。仅仅GPT-4o一年推理所用的水,就可能超过1200万人的饮用水需求。

报告没有在这里做价值判断。AI减少的碳(比如优化电网、替代通勤)和它新产生的碳之间怎么算账,现在还没有可信的总量模型。但报告坚持把这组数字放在每一版里,意思是:能力曲线之外,还有一条环境成本曲线,两条曲线一起在涨。

发布于 英国