#Grok4比DeepSeek强吗#咋天马斯克发布的Grok-4，从目前曝光的信息来看，Grok4的真实水平存在争议，与DeepSeek相比，各有优劣。Grok4或许存在宣传夸大的嫌疑，博主@karminski-牙医用「20小球七边形弹跳」代码测试题对Grok4进行三轮实测，结果生成三次中有两次出现明显问题，唯一成功案例效果仅接近2

#Grok4比DeepSeek强吗#咋天马斯克发布的Grok-4，从目前曝光的信息来看，Grok4的真实水平存在争议，与DeepSeek相比，各有优劣。

Grok4或许存在宣传夸大的嫌疑，博主@karminski-牙医用「20小球七边形弹跳」代码测试题对Grok4进行三轮实测，结果生成三次中有两次出现明显问题，唯一成功案例效果仅接近2025年初版DeepSeek-R1，综合表现仅处于Q1大模型中游水准。

但在其他权威测试中，Grok4成绩斐然。在「人类终极考试（HLE）」中，Grok 4 Heavy版本得分达44.4%，远超谷歌Gemini 2.5 Pro的26.9%；AIME25数学竞赛中更是取得满分。这表明Grok4在逻辑推理、复杂数学问题解决上能力卓越，可一旦涉及特定编程测试，表现就差强人意。

DeepSeek在基础的代码生成任务上表现稳定，而Grok4虽然在代码测试中表现不佳，但在多学科综合推理、复杂任务处理方面优势明显。例如在自动售货机运营测试（Vending-Bench）里，Grok4销售量最多，净资产翻倍，远超其他对手，展现出强大的实际应用能力。在语音交互上，Grok4端到端延迟减半，新增多种声音模式，交互体验更自然流畅。

Grok4虽然在某些测试中表现欠佳，但不能忽视它在多领域展现出的强大实力。与DeepSeek相比，它们在不同应用场景各有千秋，很难简单判定谁更强[并不简单]#ai生活指南# http://t.cn/A6kU0V0H

发布于浙江