马斯克转了个推,测了下目前大模型的幻觉率,Grok 4.2在新的测试里跑了78%(无幻觉的比例),Claude 4.5 Haiku是74%
这里面神奇的是小米的MiMo V2 Pro,70%,全球第三[流汗]
发布于 广东
马斯克转了个推,测了下目前大模型的幻觉率,Grok 4.2在新的测试里跑了78%(无幻觉的比例),Claude 4.5 Haiku是74%
这里面神奇的是小米的MiMo V2 Pro,70%,全球第三[流汗]