#Grok4比DeepSeek强吗#咋天马斯克发布的Grok-4,从目前曝光的信息来看,Grok4的真实水平存在争议,与DeepSeek相比,各有优劣。
Grok4或许存在宣传夸大的嫌疑,博主@karminski-牙医 用「20小球七边形弹跳」代码测试题对Grok4进行三轮实测,结果生成三次中有两次出现明显问题 ,唯一成功案例效果仅接近2025年初版DeepSeek-R1,综合表现仅处于Q1大模型中游水准。
但在其他权威测试中,Grok4成绩斐然。在「人类终极考试(HLE)」中,Grok 4 Heavy版本得分达44.4%,远超谷歌Gemini 2.5 Pro的26.9%;AIME25数学竞赛中更是取得满分。这表明Grok4在逻辑推理、复杂数学问题解决上能力卓越,可一旦涉及特定编程测试,表现就差强人意。
DeepSeek在基础的代码生成任务上表现稳定,而Grok4虽然在代码测试中表现不佳,但在多学科综合推理、复杂任务处理方面优势明显。例如在自动售货机运营测试(Vending-Bench)里,Grok4销售量最多,净资产翻倍,远超其他对手,展现出强大的实际应用能力。在语音交互上,Grok4端到端延迟减半,新增多种声音模式,交互体验更自然流畅。
Grok4虽然在某些测试中表现欠佳,但不能忽视它在多领域展现出的强大实力。与DeepSeek相比,它们在不同应用场景各有千秋,很难简单判定谁更强[并不简单]#ai生活指南# http://t.cn/A6kU0V0H
发布于 浙江
