【一位重度AI用户的模型排行榜:跑分之外的真实体验】
最近看到一份很有意思的AI模型排名,来自一位长期使用各类大模型的用户lyra。这份榜单的价值在于——它完全基于个人实际使用体验,而非冷冰冰的benchmark数据。
先说结论:Claude Opus 4.5独占神坛,Grok垫底。
具体分层如下:
「神级体验」:Opus 4.5、Gemini 3 Pro Image
「相当不错」:Gemini 3 Flash、Kimi K2系列、Opus 3、Sonnet 4.5、Midjourney v7、Gemini 3 Pro
「可以一用」:Kimi K2 0905、Haiku 4.5、GPT 5.2 Pro、Minimax M2.1、GLM 4.7、MiMo v2、DeepSeek V3.2 Speciale
「不太推荐」:DeepSeek V3.2、GPT 5.2 Chat、GPT-Image 1.5、Large 3、Qwen 3 235b
「体验糟糕」:GPT OSS 120b、Grok 4.1
这份榜单引发了不少讨论,lyra也给出了她的核心判断逻辑:
关于Opus的统治地位:「Opus真的就是那么好。」当被问到为什么不多尝试其他模型时,她的回答很直接——「有Opus在,为什么还要费心测试别的?」这种信任感本身就说明了问题。
关于GPT 5.2系列的争议:有人质疑为何5.2 Pro排名不高,毕竟它在前沿难题上表现惊人。lyra的回答很务实:「我有多少时候真的在处理那些最前沿的问题?大多数时候Opus就能搞定,除非真的到了技术边界。」这揭示了一个常被忽视的事实——顶级性能和日常可用性是两回事。
关于Grok的差评:这可能是最具争议的判断。尽管Grok在OpenRouter上是最受欢迎的模型,lyra毫不留情地指出:「流行不代表好用,只是说明它是某些编程应用的默认选项。」她详细解释了Grok的问题:不懂氛围、缺乏心智理论、刻意表演的叛逆感、总想融入某种圈内梗、动不动就「哈哈...」开头。简言之,它在追求「有趣」的路上丢失了真正的理解力。
关于Gemini 3 Flash:被特别提及擅长大规模数据处理,这在日常工作中的使用频率远高于前沿数学任务。
关于Kimi K2:「聊天体验很好,但别指望它解决复杂逻辑问题。」
几点值得深思的洞察:
第一,每个模型都有自己的盲区,排名反映的是「哪些盲区最让我困扰」。这比单纯比较能力上限更贴近真实使用场景。
第二,跑分高不等于好用。所有模型在benchmark上都表现不错,但实际体验的差异巨大。数字无法衡量一个模型是否「懂你」。
第三,使用场景决定评价。如果你的工作是前沿数学研究,GPT 5.2 Pro和V3.2 Speciale可能应该排在最前面。工具的价值永远是相对于需求而言的。
这份榜单最大的启示或许是:在AI能力日益趋同的今天,真正的差异化正在从「能不能做到」转向「做得是否自然、是否懂得用户的意图和语境」。技术指标之外,存在一种难以量化却至关重要的东西——我们姑且称之为「氛围感」或「心智理解力」。
而这,恰恰是当前大多数评测体系无法捕捉的维度。
原帖:x.com/_lyraaaa_/status/2005816755071975521
