#Grok4更新有哪些亮点#ArtificialAnlys对Grok4的模型评测结果也出来了。关键基准测试结果：➤ Grok 4不仅在“人工智能分析指数”中领先，在“编码指数”（LiveCodeBench和SciCode）和“数学指数”（AIME24和MATH-500）中也同样领先➤ GPQA钻石级历史最高得分88%，较Gemini 2.5 Pro之前的84%纪录

#Grok4更新有哪些亮点#
ArtificialAnlys对Grok4的模型评测结果也出来了。
关键基准测试结果：
➤ Grok 4不仅在“人工智能分析指数”中领先，在“编码指数”（LiveCodeBench和SciCode）和“数学指数”（AIME24和MATH-500）中也同样领先

➤ GPQA钻石级历史最高得分88%，较Gemini 2.5 Pro之前的84%纪录有显著提升

➤ 在“人类期末考试”中创下24%的历史最高分，击败了Gemini 2.5 Pro之前21%的历史最高分。请注意，我们的基准测试套件使用的是原始的HLE数据集（2025年1月），并且是在不使用任何工具的情况下运行纯文本子集的

➤ 在MMLU-Pro和AIME 2024中分别取得87%和94%的联合最高分

➤ 速度：75个输出token/秒，低于o3（188个token/秒）、Gemini 2.5 Pro（142个token/秒）、Claude 4 Sonnet Thinking（85token/秒），但高于Claude 4 Opus Thinking（66个token/秒）

其他关键信息：

➤ 256k token的上下文窗口。这低于Gemini 2.5 Pro的100万个token的上下文窗口，但高于Claude 4 Sonnet和Claude 4 Opus（200k token）、o3（200k token）以及R1 0528（128k token）

➤ 支持文本和图像输入

➤ 支持函数调用和结构化输出

发布于广东