斯坦福发布AI指数报告

#模型时代# 斯坦福《2026人工智能指数报告》：美国吸引AI人才的速度比2017年少了89%

2026年4月发布的第九版《人工智能指数报告》（AI Index Report 2026），由斯坦福大学以人为本人工智能研究院（HAI）出品，负责人是Ray Perrault、Yolanda Gil、Jack Clark等。这份报告每年一出，厚度接近一本书，把全球AI在研发、性能、经济、科学、医疗、教育、政策、舆论上的进展压到一份数据集里。今年是第九版，第一次把科学和医学单列成章。

这份报告要回答的问题其实只有一个：过去这一年，AI能力冲到哪儿了，围绕它建的那套东西，评测方法、治理框架、教育体系、劳动力市场，还跟得上吗？

结论是跟不上。能力曲线还在往上走，基准测试在几个月里被打穿，企业采用率冲到88%，但负责任AI的进展几乎原地踏步，AI事故数涨到362起，美国能吸引到的AI人才比2017年少了89%。报告每一章都在讲这个剪刀差。

---

一是中美模型差距基本抹平了。2025年2月DeepSeek-R1短暂追平美国头部模型，到2026年3月，Anthropic的顶级模型在Arena排行榜上只领先最强的中国模型2.7%。Anthropic、xAI、Google、OpenAI、阿里、DeepSeek六家的Elo分都挤在顶层25分以内。过去那种"美国领先一代"的叙事，这一年里没了。

二是采用速度快过历史上任何一次技术扩散。生成式AI用三年做到53%的人口渗透率，比PC和互联网都快。新加坡61%、阿联酋54%，美国只有28.3%，排第24位。这不是"美国用不起"的问题，是美国已有的信息化存量太大，新工具进入门槛反而高。

三是初级岗位在AI生产力最明显的那几个领域先挨刀。软件开发、客服这类地方AI能提效14%到26%，而美国22到25岁的软件开发者，2024年到现在就业人数降了近20%，同时中老年开发者在继续增长。裁的是刚入行的，留的是资深的。

四是美国国会听证会上的AI话事人换了。2017年美国国会涉AI的听证证人总数只有5人，到2025年变成102人，八年涨了二十倍。里面产业界代表的占比从13%升到37%，成了最大群体，学术界反而降到15%。这意味着接下来几年美国的AI立法框架，产业界直接参与书写。

---

下面按报告的逻辑顺序解读。

1、先看一个反差：AI能拿IMO金牌，但看不准钟表。

Google Gemini Deep Think 2025年在国际数学奥林匹克（IMO）上拿到金牌级分数。同一批模型里，最好的一个在"读模拟时钟指针时间"这件事上，正确率只有50.1%，跟抛硬币差不多。

这就是研究圈里说的"参差前沿"（jagged frontier）：AI在某些任务上超过人类专家，在另一些任务，甚至是小孩都会的任务上完全失败。报告反复强调，不要再用一两个基准分数去判断"AI整体水平"，因为这东西本来就不是整体均匀推进的。

2、基准测试寿命以月计。

"人类最后考试"（Humanity's Last Exam）是一个专门设计来难住AI、偏向人类专家的题库。前沿模型一年之内在上面多拿了30个百分点。SWE-bench Verified这个编程基准，一年里从60%冲到接近100%的人类水平。

意思是，新基准刚发布，几个月就被打穿。过去十年业内靠基准测试来衡量进展，现在这套测量工具本身跟不上了。报告把这称为"可测量性危机"，不是能力不在涨，是能用来说"AI涨了多少"的标尺在崩。

3、企业采用到了88%，但AI Agent还没真的铺开。

受访企业里88%已经在至少一个业务环节用生成式AI，70%在至少一个业务部门用上了。但AI Agent，可以自主规划多步任务的那种，在几乎所有业务职能里的部署率还是个位数。

这是两件事：用AI是一回事，让AI自己去干活是另一回事。前者已经完成，后者刚开始。报告里有一张关于Agent部署的表，几乎所有业务线都在3%到8%之间，只有软件工程稍高。企业还在观望阶段。

4、消费者端一年吃下1720亿美元的免费午餐。

报告做了一次生成式AI对美国消费者"消费者剩余"（consumer surplus，经济学里指消费者愿意付的价格和实际付的价格之间的差额）的估算：2026年初达到每年约1720亿美元，比一年前的1120亿涨了54%，用户人均价值三倍。

关键是"这些工具大部分是免费或接近免费的"。这笔价值没有进入任何公司的营收报表，也没有进入GDP统计，但它是真实发生的效用转移。这是过去的技术扩散里少见的结构，PC和互联网普及的时候，早期用户是要付钱的。

5、投资的天平在美国那边压得很重。

2025年美国私人AI投资2859亿美元，中国124亿美元，差了23倍。美国当年新融资的AI公司1953家，是第二名的十倍以上。

但这个比较有个前提：只看私人投资会低估中国。中国政府引导基金2000年到2023年向AI领域累计投入约1840亿美元，这部分没计入私人投资口径。另一个对照数字：美国政府2013年到2024年在AI相关合同和拨款上一共花了约204亿美元，政府花的钱只有私人一年投的不到十分之一。

6、TSMC之外，美国最大的问题是留不住人了。

过去美国是全球AI人才的终点站，现在不是了。迁入美国的AI研究者和开发者数量比2017年少了89%，而且降速在加快，光是最近一年就降了80%。美国本土AI人才存量仍然世界第一，但吸引新人的速度是十年来最低的。

报告没有给出原因诊断，但数据曲线跟特朗普政府2025年上任后的签证政策调整时间轴对得上。

7、把"负责任AI"的报告卡拿出来，一半是空白。

这是报告里最不被媒体提的章节，但数据最扎眼。几乎所有主流前沿模型厂商都会公布自己在能力基准测试上的分数，比如SWE-bench多少分、MMLU多少分。但负责任AI相关的基准，包括安全、公平性、隐私、事实性，报告发布率低得多，各家口径也不一样。

有记录的AI事故从2024年的233起涨到2025年的362起。更麻烦的是，一项最近的实证研究发现，训练技巧如果针对"安全性"优化，会显著拉低"准确性"；优化"公平性"，会削弱别的指标。负责任AI的几个维度之间并不是都能同时变好的，这个权衡关系业内也还没理清楚。

8、AI主权成了国家战略关键词，但算力没跟上。

"AI主权"（AI sovereignty）指的是一个国家对自己AI能力的掌控权，不受别国模型、芯片、数据管道卡脖子。2024年新出台的AI国家战略里，一半以上来自新兴经济体；到2025年，撒哈拉以南非洲、中亚、中东又多了一批国家在制定战略。

但基础设施分布不均。欧洲和中亚地区政府支持的AI超算集群，2018年3个，2025年44个；南亚2个、拉美3个、中东北非8个。战略写在纸上容易，超算建起来难。

9、开源这一块在重新分配世界。

GitHub上的AI项目数达到560万，Hugging Face上传量从2023年起翻了三倍。地理分布上有个变化：过去欧洲是第二梯队，现在"世界其他地区"（除美、中、欧之外）的贡献量已经超过欧洲，正在逼近美国。

这个变化的一个结果是：多语种模型和多语种基准测试开始变多。过去AI研究几乎只用英文数据，现在用印地语、阿拉伯语、斯瓦希里语训练和评测的模型多了起来。开源没有改变谁在生产最强模型，但改变了谁在参与。

10、小模型在科学领域打败大模型。

报告第一次把"AI for Science"单列成章，里面有几个反直觉的发现。MSAPairformer是一个1.11亿参数的蛋白质语言模型，在ProteinGym基准测试上超过了之前所有领先方法。GPN-Star是一个2亿参数的基因组学模型，表现超过了一个参数量比它大近200倍的模型。

这跟通用大模型"越大越强"的规律相反。原因是科学数据本身稀缺而高质量，比如蛋白质结构数据、基因组数据有严格的实验验证，训练效率可以很高。通用大模型的参数军备竞赛在这个领域不成立。

另一个对照：通用AI 90%以上的前沿模型来自产业界，但科学AI基础模型大多来自学术和政府机构，并且通常是国际合作的产物。

11、能做化学题的模型，复现不了一篇天文学论文。

同一批前沿模型，在ChemBench上2700多道化学题的平均分超过人类化学专家。但到了ReplicationBench，一个要求模型端到端复现已发表天体物理学论文的测试，前沿模型的得分低于20%。在UnivEarth的地球观测题上，大模型Agent准确率33%，它们写的代码58%会跑失败。

做题和做研究不是一件事。做题靠的是模式匹配和知识覆盖，做研究需要假设、设计实验、排查错误、重跑分析。报告把这个落差叫做"AI for Science的能力天花板"。

12、医生写病历的时间少了八成。

2025年美国医院大规模部署"临床笔记自动生成"工具：医生跟病人聊天时，AI在后台录音转写并生成符合格式的病历。多家医院系统报告医生写病历时间减少高达83%，职业倦怠明显下降，有一个医院系统报告投资回报率112%。

这是报告里少数"AI落地效果已经被跑通"的案例。但报告也指出，这是例外。对500多项临床AI研究做的综述发现，近一半研究用的是考试题而不是真实病人数据，只有5%用了真实临床数据来验证。大多数医疗AI的有效性证据还非常薄。

13、FDA批了258个AI医疗设备，大部分没做新临床试验。

FDA在2025年批准了258个AI医疗设备上市。但大部分是通过"器械修改路径"走的，也就是说，它们是已有设备的AI改版，监管部门认可"既有安全性和有效性证据"，不强制要求新的随机对照试验。在有临床研究的那部分设备里，只有2.4%是基于随机试验数据。

这不是说这些设备不安全，是说监管路径本身允许绕开最严格的证据门槛。临床医生部署这些工具的时候，它们背后的证据链其实比传统药品或器械薄得多。

14、学生全在用AI，学校还没准备好。

超过80%的美国高中生和大学生现在用AI做学校相关的事。但只有一半的中学和高中有AI相关政策，只有6%的老师说这些政策"清晰"。

中国和阿联酋从2025-26学年起在国家层面强制AI教育入课堂。美国还停留在各学校各自摸索的阶段。另一个信号：美国和加拿大的新AI博士数量2022到2024年涨了22%，但这批人全部流向了学术界，没去产业界，反转了过去十年AI博士主要进企业的趋势。

15、专家和公众隔着50个百分点的鸿沟。

问同一个问题，"AI对人们的工作会有正面影响吗"，73%的AI专家说会，23%的美国公众说会。50个百分点的差距。经济影响（69% vs 21%）、医疗（84% vs 44%）上也差得差不多。

只有两件事专家和公众看法一致：AI会损害选举（两边都担心），AI会损害人际关系（两边都担心）。

信任层面，美国人对本国政府监管AI的信任度只有31%，是被调查国家里最低的。全球范围内，欧盟被认为是最可靠的AI监管方，高于美国和中国。

16、训练一个Grok 4，排7万多吨二氧化碳。

Grok 4的训练碳排放估算为72,816吨CO₂当量。AI数据中心电力容量已经涨到29.6 GW，相当于纽约州峰值用电量。仅仅GPT-4o一年推理所用的水，就可能超过1200万人的饮用水需求。

报告没有在这里做价值判断。AI减少的碳（比如优化电网、替代通勤）和它新产生的碳之间怎么算账，现在还没有可信的总量模型。但报告坚持把这组数字放在每一版里，意思是：能力曲线之外，还有一条环境成本曲线，两条曲线一起在涨。

发布于英国