从夯到拉睿评一下最新的大语言模型和agent写代码
首先叠个甲,我个人是Claude Max + GPT Pro + Google AI Pro三个订阅加上一个月差不多200 +的 Deepseek api和GLM api,渠道全都是官方。可以说算是九龙拉棺。光是deepseek一个月的消耗量就是五亿token,并且ds由于没有订阅所以还不是我蹬得最狠的。
Claude:最近claude 更新了Opus4.8,我看到很多人觉得4.7和4.8对比4.6没有进步反有退步。这个嘛,我个人体感,退步是算不上的,但进步确实没有。并且A除这个公司,真是无敌炒作大王,而且最近炒得越来越烂,真是顶级也够公司
不过一码归一码,目前基模能力而言claude还是绝对的夯。配合上claude code这个公认的代码原神,毫无争议的第一梯队
Openai: ChatGPT的基模,你说他拉了吧,他其实没拉。你说他没拉吧,他其实拉了。但真拉了吗?我觉得没拉。但你问真没拉吗?我觉得拉了。排在人上人吧
主要是我真觉得GPT的基模挺没意思的。不过在 Codex 内那就是另一回事了。Codex其实已经事实上取代了claude code成为我使用最多的工具。在消除幻觉这方面,我觉得是比claude code要优秀的,所以很适合用来计划和讨论。目前单就写代码层面,我一般是安排给claude code让他给我具体的计划,然后交给codex审查。然后我和codex消化完后再让claude code写代码。代码审查的能力也是一流,codex一般不会犯很蠢的错误。妥妥的夯
Gemini: 在我今年一月的排名中,Gemini因为当时很炫酷的1M上下文,还有极其开放的CLI使用政策被我抬到了夯爆了的高度。半年过去,彻底变成一坨大的。Gemini CLI在龙虾火的那段时间被过分反代滥用,导致包括Pro和Ultra用户都是完全无法访问。甚至我刚刚去查了一下惊讶地发现CLI要被谷歌关停了,以后全部转到antigravity 上,似掉了!无法访问+冢中枯骨,鉴定为拉
Gemini基模更不用说,幻觉大+不遵守提示词,完全就一个大号豆包,蠢得令人发昏。
Antigravity 则更搞笑,一开始搭配IDE时我还是饶有兴趣的试了一下,虽然Gemini本身不好用,但是在上面开claude还挺有意思的。结果没想到过了没多久IDE版居然被砍了,现在彻底变成agent应用。在基模性能不如claude和gpt的情况下价格一样且服务供应还不稳定,鉴定为何意味
Deepseek: Kept you waiting huh,首次体验DeepseekV4,睿男被吓到眩晕瘫坐,那一刻就像看到原子弹爆炸。这是我期待最久的模型,初版性能也没有让我失望。但看到价格时我还是心里一沉,说是下半年降价但是v4已经让我好等了,还要等降价吗,真够难受的。
没想到反转了,发布仅过了三天,梁圣就宣布打0.25折,打折期限到了后更是宣布折扣永久。这下梁圣的恩情真的还不完了。我对这款模型喜爱自不用多说,一个月烧的token量就足够证明我和小鲸鱼的羁绊。Claude和gpt再好终究只能在官方工具上做既定工作,而deepseek这才是真正够全方面接入的api价格。
不过你要讨论代码能力,小鲸鱼目前还不够。我是套在claude code上使用的,听说claude code会在非自家模型注入乱码来降低模型性能,不知道是不是真的。听说梁圣最近在做harness,等一个自家的agent好吧。并且视觉能力也要上线了,我很期待。我给他的评价是顶级,等一个V4.1好吧,ds神了
GLM: glm代码能力其实是强于deepseek的,我感觉是claude和gpt下的第一人。但我与它的蜜月期十分短暂,究其原因,coding plan始终缺货,单买api又太贵。而且我目前的ai工具已经够多,不再需要glm帮我填补什么方面。所以dsv4上线后基本就不买了,给我感觉是挺有亮点,但是无法大量使用的模型
Gork: 美国豆包懂都懂。联网搜索这一块还是不错的,不会真有人拿这个写代码吧?说来gork之前出vtb形象时我还挺感兴趣的。叫Ani说是,但实际模型太东北雨姐,后面出了个Mika就模型这块爆杀Ani了,可惜的是这两个聊起来都很无聊,像是一年前的ai工具。食之无味弃之也不可惜。单就二次元这一点给你拉高一档吧。Gork is that true?
豆包:你们知道吗,豆包是有萌娘百科的。如果真有人用豆包写代码的真得@ 出来了,这种人做什么都会成功的。
不过豆包好像要崛起了,最近听说字节憋了个超级大的,不知道是真是假,再探再报吧。
千问:开源社区小参数模型的神。光是其社区和部署能力我就要给他颁布一个人上人。从llama手上接棒了整个部署社区。另一边llama则是拉完了,或者说扎克伯格拉完了。llama最后被边缘化的下场令人唏嘘,蜥蜴人不行
