兔撕鸡大老爷 25-07-10 18:51
微博认证:2024微博年度新知博主 科技博主

马斯克旗下有家xAI公司,产品是Grok系列大模型,Grok既有独立app,又跟X(推特)相融合,X用户喜欢拿它查验真伪,类似微博智搜的作用,今天xAI发布了Grok4,马斯克称它为“全球最强AI模型”。

每当AI大模型发新品,都要经历一次摸底考试。
HLE,人类最终测试。
Humanity's Last Exam,最新版包含2500道题目,涵盖哲学、社会学、伦理等复杂的跨学科题目。

Grok4的文本模型在不使用任何外部工具的情况下,在HLE取得了26.9%的成绩。当允许使用工具时,成绩飙升到了41.0%,重思考模式 Grok 4 Heavy 的得分更是达到了 58.3%,远超此前 Claude 4 Opus、Gemini 2.5 Pro 等模型的得分区间。

很多人质疑HLE是不是泄题了...

另外一些人,觉得是Grok4的推理能力倍增,是基于它的训练是基于拥有超过20万张H100 GPU的超级计算机群。(投入算力是Grok3时期的两倍,Grok2时起的100倍。)

马斯克说xAI追求第一性原理,秉持“最大化地寻求真相”的核心哲学,X上的各种争议太过复杂,Grok4的迭代核心,就是在面对争议性、复杂伦理问题时,能够从第一性原理出发,进行深度、无偏见的推理,而非给出模版化答案。

这一代有个技术亮点,叫多智能体协作
Grok 4 heavy是一种采用了全新的内部协作机制,由多个智能体构成 “研讨小组”。遇到复杂问题时,各智能体从不同角度独立思考,然后分享思路,整合优化,最终形成最佳答案。

就好比牛顿 哥白尼 伽利略 墨子 达芬奇等人形成了一个智囊团,由他们来给你提供顶级内参。

所以有人觉得马斯克简直无情,太有钱也太敢花钱了,拿当世最强算力训练,夺得了全榜第一,反应速度几乎缩短了一半,相应的,Grok4 Heavy年费也飙到了3600美元(25800元人民币)。
Grok4还是原价,360美元/年。
Grok3维持免费开放。

今天会有多少AI精英自费买Grok 4 Heavy呢?
这就要看决心了...

xAI同期还加入了专门的编程模型Grok 4 Code,方便开发者进行代码生成、调试等工作,已有开发者借助Grok 4 API,仅用4小时就可以从零开始制作一款完整的第一人称视角射击游戏,还能自动完成寻找纹理贴图、处理3D模型等美术资源的工作,也就是一个很好的agent。

还展示了Grok4的经营能力,它可以参与自动售货机运营,能决定卖什么、怎么定价、何时补货等等,让净利润增长,是目前唯一能“连续跑完完整经营周期”的AI模型。

它到底多好用,就要看后面使用者的赞美与吐槽了...

发布于 浙江