梁赛 25-07-10 14:13
微博认证:AI博主

#Grok4更新有哪些亮点#
ArtificialAnlys对Grok4的模型评测结果也出来了。
关键基准测试结果:
➤ Grok 4不仅在“人工智能分析指数”中领先,在“编码指数”(LiveCodeBench和SciCode)和“数学指数”(AIME24和MATH-500)中也同样领先

➤ GPQA钻石级历史最高得分88%,较Gemini 2.5 Pro之前的84%纪录有显著提升

➤ 在“人类期末考试”中创下24%的历史最高分,击败了Gemini 2.5 Pro之前21%的历史最高分。请注意,我们的基准测试套件使用的是原始的HLE数据集(2025年1月),并且是在不使用任何工具的情况下运行纯文本子集的

➤ 在MMLU-Pro和AIME 2024中分别取得87%和94%的联合最高分

➤ 速度:75个输出token/秒,低于o3(188个token/秒)、Gemini 2.5 Pro(142个token/秒)、Claude 4 Sonnet Thinking(85token/秒),但高于Claude 4 Opus Thinking(66个token/秒)

其他关键信息:

➤ 256k token的上下文窗口。这低于Gemini 2.5 Pro的100万个token的上下文窗口,但高于Claude 4 Sonnet和Claude 4 Opus(200k token)、o3(200k token)以及R1 0528(128k token)

➤ 支持文本和图像输入

➤ 支持函数调用和结构化输出

发布于 广东