无能的老板bro
26-06-10 14:43 微博认证:数码博主 头条文章作者

#Claude新模型Fable5有多强#早上被Claude Fable 5的评测刷屏了。80.3%的SWE-Bench Pro,比GPT-5.5高出21.7个百分点——这个差距已经不是“略胜一筹”,是断层碾压。

更离谱的是,它靠屏幕截图通关了《宝可梦 火红》,还能从零建一个3D CAD编辑器。Stripe用它在5000万行代码库里一天干完了团队两个月的活。但问题也随之而来:安全降级机制会误杀无害请求,而且一个复杂任务就能把5小时额度吃光。

作为日常主力,我肯定会把它放进候选名单——前提是你不介意偶尔被“误伤”。它强到让人想放手让它写代码,但生产环境千万别这么干。

#Claude新模型Fable5有多强#http://t.cn/AXXFXFR8

发布于 天津