马斯克旗下有家xAI公司，产品是Grok系列大模型，Grok既有独立app，又跟X（推特）相融合，X用户喜欢拿它查验真伪，类似微博智搜的作用，今天xAI发布了Grok4，马斯克称它为“全球最强AI模型”。每当AI大模型发新品，都要经历一次摸底考试。HLE，人类最终测试。Humanity's Last Exam，最新版包含2500

马斯克旗下有家xAI公司，产品是Grok系列大模型，Grok既有独立app，又跟X（推特）相融合，X用户喜欢拿它查验真伪，类似微博智搜的作用，今天xAI发布了Grok4，马斯克称它为“全球最强AI模型”。

每当AI大模型发新品，都要经历一次摸底考试。
HLE，人类最终测试。
Humanity's Last Exam，最新版包含2500道题目，涵盖哲学、社会学、伦理等复杂的跨学科题目。

Grok4的文本模型在不使用任何外部工具的情况下，在HLE取得了26.9%的成绩。当允许使用工具时，成绩飙升到了41.0%，重思考模式 Grok 4 Heavy 的得分更是达到了 58.3%，远超此前 Claude 4 Opus、Gemini 2.5 Pro 等模型的得分区间。

很多人质疑HLE是不是泄题了...

另外一些人，觉得是Grok4的推理能力倍增，是基于它的训练是基于拥有超过20万张H100 GPU的超级计算机群。（投入算力是Grok3时期的两倍，Grok2时起的100倍。）

马斯克说xAI追求第一性原理，秉持“最大化地寻求真相”的核心哲学，X上的各种争议太过复杂，Grok4的迭代核心，就是在面对争议性、复杂伦理问题时，能够从第一性原理出发，进行深度、无偏见的推理，而非给出模版化答案。

这一代有个技术亮点，叫多智能体协作
Grok 4 heavy是一种采用了全新的内部协作机制，由多个智能体构成 “研讨小组”。遇到复杂问题时，各智能体从不同角度独立思考，然后分享思路，整合优化，最终形成最佳答案。

就好比牛顿哥白尼伽利略墨子达芬奇等人形成了一个智囊团，由他们来给你提供顶级内参。

所以有人觉得马斯克简直无情，太有钱也太敢花钱了，拿当世最强算力训练，夺得了全榜第一，反应速度几乎缩短了一半，相应的，Grok4 Heavy年费也飙到了3600美元（25800元人民币）。
Grok4还是原价，360美元/年。
Grok3维持免费开放。

今天会有多少AI精英自费买Grok 4 Heavy呢？
这就要看决心了...

xAI同期还加入了专门的编程模型Grok 4 Code，方便开发者进行代码生成、调试等工作，已有开发者借助Grok 4 API，仅用4小时就可以从零开始制作一款完整的第一人称视角射击游戏，还能自动完成寻找纹理贴图、处理3D模型等美术资源的工作，也就是一个很好的agent。

还展示了Grok4的经营能力，它可以参与自动售货机运营，能决定卖什么、怎么定价、何时补货等等，让净利润增长，是目前唯一能“连续跑完完整经营周期”的AI模型。

它到底多好用，就要看后面使用者的赞美与吐槽了...

发布于浙江