董不懂在摸鱼 25-10-17 12:04
微博认证:AI博主

前两天Karpathy开源了他自己写的项目nanochat,算是整个互联网大模型圈的热点之一,这个项目特点是极简、完全从头开始from scratch,包括全栈训练和推理pipeline,总共8000行代码。

然而,让老董叔最为惊讶的是,Karpathy并没有依靠AI coding,而是完全通过手写的方式hand-written,顶多用了tab补全,

——这其实就是AI coding之前一个时代,咱们写代码的方式了。

说实在的,现在让大家回到前大模型完全代码hand-written那个时代,大多数人包括老董叔估计都要疯了。

其实Karpathy给出了解释,他当然在nanochat项目开发中,尝试了咱们几乎每个人每天都常用的Claude、Codex等coding agent工具,但是效果很不好,

他甚至抱怨道,基本是完全不起作用、毫无帮助(net unhelpful)

这个抱怨虽然在很多用AI coding的人中仍然经常听到,但你要知道,Karpathy不是别人,

——他是发明了vibe coding的人。

老董叔当时就在X上对Karpathy评论道(图一),这是典型的distribution shift,发生在了coding任务上。

因为Karpathy开发的任务是from scratch基于一些比较新的算法,比如GRPO等等,搭建完整的ChatGPT缩小版,在Anthropic OpenAI等等各家开发的AI Coding Agent中,这部分代码的分布是极少的,自然也就起不了什么作用,甚至完全是副作用。

——Vibe coding发明者如今用纯手工打造的8000行代码发布了类ChatGPT项目,本身就是对AI Coding局限性的最好注解。

尤其是在现在各大厂家模型全力在SWE-Bench verified等等benchmark榜单上继续刷分的情况下(比如,图2中Claude sonnet 4.5最高刷到了82%),这种benchmark的评价本身也应该想办法改进了。

(至于老董叔在图一X贴子上提到的self-evolving system,其实是另一个问题了,篇幅有限,在这里就不赘述了,有机会大家再一起讨论讨论)
#AI编程局限性##vibe coding#

发布于 中国香港