Max Woolf实测AI编程

有个人公开写过一篇《我是资深 LLM 用户，其实很少用生成式 AI》，嫌它不靠谱、又贵、被吹得过头，结果他自己花了大半年，把现在的 AI 编程 agent 拿真项目挨个试了一遍，写了篇超长实测。最有用的不是「AI 多神」，而是他诚实划出来的一条线：哪些活交给它稳赚时间，哪些会让你花更多时间给它擦屁股。

这个人叫 Max Woolf，是 BuzzFeed 的资深数据科学家，在旧金山。他原本是 AI 编程的公开怀疑者，去年五月那篇文章就是他写的，意思很直白：这东西不可预测、贵、吹得跟实际体验严重不符。

后来他改了主意，但改得很克制。2026年初他用 Claude Opus 4.5、OpenAI 的 Codex、还有 Claude Code，把一堆真活儿挨个跑了一遍。他自己说，早些时候用 Copilot 配上老一点的模型，体验很差，所以他不是一上来就信了，是被新模型一点点说服的。

我特别喜欢他这篇的一点，是他没把 AI 写成救世主。

他把翻车的部分、自己怎么给 AI 擦屁股的细节，全都老老实实写了出来。这种怀疑者亲手试出来的东西，比那些「AI 颠覆一切」的帖子值钱太多。后者你看完只剩一句空话，前者你看完手里能攥着一张能用的表。

先说他试下来稳赚时间的活。

第一个是写一个爬 YouTube 视频信息的脚本，第一次就跑通了，能爬到2万条视频。第二个是做一个网页应用（FastAPI），逻辑清晰，AI 还自己加了点小巧思。第三个是用 Rust 写个画图的小项目，基本一次成型，中间只有一处翻车，他给了个方向提示让 AI 换一个渲染库，AI 就改好了。

最夸张的是第四类，机器学习算法的优化。他没有一句「帮我优化一下」就甩给 AI，而是搭了一条很细的流水线：先实现，再清理，再扫一遍有没有算法弱点，然后按着「这一轮要快1.4倍」这种硬指标一轮轮逼，再做性能分析，再封装，再跑基准测试，最后核对精度有没有掉。

结果是真能打。同样一个降维算法，他做出来的比 Python 现成那个快9到30倍；另一个聚类算法快3到10倍；做决策树的那个，训练速度比业界常用的 xgboost 快24到42倍。

有人不信，说他是不是把别人的代码抄过来了。他的回应挺有意思：如果我这个比现存所有的都快，那它就不可能是抄来的，必然是条原创路子。他还直接把其中一个库开源了出来，叫别人自己看。

这些活有个共同点：边界清楚，成败能量化。爬数据、接接口、做数据转换、有基准测试盯着的优化，都是「对不对一跑就知道」的活。AI 在这种地方是真省时间。

而且你注意他那个算法优化，省的不是「打字」的时间，是「我大概知道该往哪个方向走，但自己一行行实现要磨好几天」的那部分时间。他心里清楚要做什么、好坏怎么判断，缺的只是把它写出来的那道体力活。这种「方向我有、实现交给它」的活，AI 接得最稳，因为他随时能用跑分把它拽回正轨。

但他也老老实实写了 AI 抓瞎的地方。

他想做一个在终端里跑的音乐工作站，结果一路踩坑。问题出在哪？AI 看不见终端里的画面。它写出来的界面，滚动会错位，点击的位置对不上，bug 一个接一个。它不是不会写，是它压根看不到自己写出来的东西长什么样，只能蒙。

最后怎么修好的？是 Max Woolf 自己上，靠他做过质量测试的底子，亲手一通乱点，把哪儿不对、配上截图，再喂回给 AI，它才一个个改掉。

你看，这里 AI 不但没省时间，反而是他在当 AI 的眼睛。

这条规律可以推到很广：凡是 AI 看不见自己干出来的结果、需要有人实时盯着画面给反馈的活，它就抓瞎，你就得做好擦屁股的准备。

所以那条线其实已经画出来了。

交给 AI 稳赚时间的，是那些边界清晰、成败可量化的活——写算法、爬数据、接接口、转换数据、有基准测试的优化。会让你花更多时间擦屁股的，是那些它看不见结果、需要人当眼睛的活——终端界面、需要实时视觉反馈的东西。

但这条线，还不是全部。

同一个 AI，为什么 Max Woolf 用得这么顺，换个人可能一塌糊涂？他自己其实点出来了，背后有三根支柱。

一是他写了一份特别细的规则文件，告诉 AI 不许用 emoji、不许写废话注释、该用哪个工具。他说这份规则「可能就是 agent 用得好和用得烂的人之间的主要分水岭」。二是他有本事一眼看出 AI 交回来的东西对不对，他是做过质量测试的人。三是他给得出客观的反馈靶子，基准测试、跑分、对错一目了然。

普通人想照搬，难就难在这三样常常一样都没有。规则不会写，对错看不出来，靶子给不出。那 AI 飞快交给你一堆东西，你既挑不出毛病、又改不动，最后那点省下来的时间，全花在反复跟它来回掰扯上了。

把活交给 AI，有点像把活外包给一个干活飞快、但看不见自己干得对不对的实习生。它能不能帮上你，一大半不取决于它多强，取决于你能不能验收。你说得清要什么、看得出它错在哪、给得出一个明确的标准，它就是个好帮手；这三样你都没有，它干得越快，你越被动。

所以这条线根本不只是写代码的事。

任何一件想交给 AI 的活，其实都卡在三个地方：这事的成败能不能量化、能不能验证，你自己有没有本事判断它交回来的东西对不对，你能不能给它一个具体的反馈靶子。三样都占齐，交出去多半稳赚时间；缺一样，省下来的时间迟早得拿擦屁股的功夫补回去。

这套判断跟你用哪家模型没关系。换成 DeepSeek、Kimi、豆包、通义，道理一模一样——决定结果的是这件活的边界和你的验收能力，不是模型的牌子。

最后说回 Max Woolf 这个人。他从怀疑者变成了「谨慎乐观」，但没变成布道的。他说自己用了这些工具反而不焦虑了，不担心编程能力退化，还有空出门走走。他又说，看着现在围绕 AI 的吵吵闹闹，他挺丧的，可一想到它的潜力又挺兴奋，自己也分不清哪种情绪更强。他甚至坦白，不知道 AI 的未来到底会怎样。

一个肯把自己翻车和纠结都写出来的人，比一万个喊「这次真的不一样」的人，更值得听。

你呢，你把哪一类活交给 AI，最后反而比自己干还慢？

#马力的AI知识分享#
#马力在记录AI领域500位大佬的分享#

发布于北京