散装基精锦鲤 26-05-05 13:43
微博认证:投资内容创作者

五一每天砸两百块Vibe coding,对国产AI大模型彻底改观。

如果你做的是可能没有标准答案的人文社科类工作,那么DeepSeek V4 PRO和GLM 5.1在中文语言处理上,几乎完爆Claude 4.7 OPUS。

只要你的harness写的足够完善,足够严谨,那么Claude 4.7 OPUS几乎可以没有幻觉。但对于更加追求创造力的人文社科类工作而言,没有幻觉,就意味着作品最终效果完全取决于你的个人认知上限。如果你缺乏创造力、品鉴力,那么你用Claude 4.7 opus,几乎就只能做出一堆平平无奇的“白人饭”。

当然幻觉太多在大部分情况下也不好,因为这意味着你的harness几乎不起作用,最终创作的作品很可能完全超出你的框架,而不是在你给定的框架内适度“自由发挥”。

总之对DeepSeek V4 PRO和GLM 5.1非常满意。唯一问题是,全球token都在涨价,这两家现在也不是特别便宜。

PS,Kimi 2.5非常蛋疼,它的幻觉率并不低,中文语言表达能力也很差(小学生作文水平,通篇全是“然后”),主要优势就是超长上下文。个人尝试下来,Kimi 2.5当前最适合的工作,大概就只有写PPT……

发布于 上海