国产AI大模型评测

五一每天砸两百块Vibe coding，对国产AI大模型彻底改观。

如果你做的是可能没有标准答案的人文社科类工作，那么DeepSeek V4 PRO和GLM 5.1在中文语言处理上，几乎完爆Claude 4.7 OPUS。

只要你的harness写的足够完善，足够严谨，那么Claude 4.7 OPUS几乎可以没有幻觉。但对于更加追求创造力的人文社科类工作而言，没有幻觉，就意味着作品最终效果完全取决于你的个人认知上限。如果你缺乏创造力、品鉴力，那么你用Claude 4.7 opus，几乎就只能做出一堆平平无奇的“白人饭”。

当然幻觉太多在大部分情况下也不好，因为这意味着你的harness几乎不起作用，最终创作的作品很可能完全超出你的框架，而不是在你给定的框架内适度“自由发挥”。

总之对DeepSeek V4 PRO和GLM 5.1非常满意。唯一问题是，全球token都在涨价，这两家现在也不是特别便宜。

PS，Kimi 2.5非常蛋疼，它的幻觉率并不低，中文语言表达能力也很差（小学生作文水平，通篇全是“然后”），主要优势就是超长上下文。个人尝试下来，Kimi 2.5当前最适合的工作，大概就只有写PPT……

发布于上海