Claude Code 最新的一条宣传视频从 X 的评论上看有点翻车了😂
这个宣传吧,用的数据虽然都很强大的样子:每天 4500 次生产部署,73% 的 PR 由 AI 辅助,Niklas 本人同时开 5 到 10 个 Claude 会话跑在不同的 git worktree 里,2000 万行的 monorepo 里 agent 跑得挺好,做代码迁移加了验证机制后成功率从 25% 拉到了 80%。
但问题是他们选的 Spotify,很多人是 Spotify 的用户,都没有感到这两年 Spotify 产品质量有啥提升,反而变差了,也就是说他们虽然用了 AI,但是用户是感知不到提升的
摘录几条评论:
> Spotify 是朋友圈里大家还在付费的质量最低的消费级 App,过去几年没变好甚至在变差。这类报道只讲部署次数这种无意义指标,不讲用户满意度和真实产品结果,让 AI 和 Claude 看起来像小丑。
> Mitchell Hashimoto(Ghostty 作者、HashiCorp 创始人)
> 最近四周里有三周播客链接发不到 Spotify,播客发布系统和网页播放器接连出问题。一边是每天 4500 次部署,一边是连播客都发不上去,对比太讽刺了。
> Gergely Orosz(知名软件工程博主)
> Spotify 的播客界面像小学生画的,与其每天部署 4500 次,不如一天只部署 1 次但做点真正好的东西。
> ThePrimeagen
评论区大量重复出现的吐槽包括:
- 4500 次部署到底在部署什么?
- App 十年没怎么变过。产品感觉停滞多年。
- 为什么 bug 越来越多?
- 离线播放失效、桌面端卡顿、缓存清不干净。
- 这不叫部署,这叫垃圾代码生产机。
支持的声音也有,但很少,点赞也低。有人对“加 judge 后成功率从 25% 到 80%”这个细节感兴趣,有人觉得大规模 monorepo 下跑 agent 的实践有参考价值。
这次翻车的根源其实很简单:Claude 展示的全是工程侧的数字,部署次数、PR 占比、agent 会话数、成功率提升,但完全没有展示用户侧的价值。产品更好用了吗?Bug 更少了吗?用户体验提升了吗?一个字都没提。
AI 宣传总是在讲效率提升了多少,讲代码产出快了多少,但如果用户感知不到任何变化,甚至觉得产品在变差,那这些数字就成了反面教材:用 AI 生产了更多代码,但产品并没有因此变好。
这其实也是当下整个 AI Agent 面临的一个根本问题:我们到底在用什么来衡量 AI 的价值?如果衡量标准只停留在“写了多少行代码”、“部署了多少次”、“PR 通过率多高”,那只是在衡量生产效率,但用户更关心产品质量。
用户不关心你每天部署多少次,只关心用了 AI 后 App 是不是更好用了,是不是解决用户真实痛点了。
