有个人公开写过一篇《我是资深 LLM 用户,其实很少用生成式 AI》,嫌它不靠谱、又贵、被吹得过头,结果他自己花了大半年,把现在的 AI 编程 agent 拿真项目挨个试了一遍,写了篇超长实测。最有用的不是「AI 多神」,而是他诚实划出来的一条线:哪些活交给它稳赚时间,哪些会让你花更多时间给它擦屁股。
这个人叫 Max Woolf,是 BuzzFeed 的资深数据科学家,在旧金山。他原本是 AI 编程的公开怀疑者,去年五月那篇文章就是他写的,意思很直白:这东西不可预测、贵、吹得跟实际体验严重不符。
后来他改了主意,但改得很克制。2026年初他用 Claude Opus 4.5、OpenAI 的 Codex、还有 Claude Code,把一堆真活儿挨个跑了一遍。他自己说,早些时候用 Copilot 配上老一点的模型,体验很差,所以他不是一上来就信了,是被新模型一点点说服的。
我特别喜欢他这篇的一点,是他没把 AI 写成救世主。
他把翻车的部分、自己怎么给 AI 擦屁股的细节,全都老老实实写了出来。这种怀疑者亲手试出来的东西,比那些「AI 颠覆一切」的帖子值钱太多。后者你看完只剩一句空话,前者你看完手里能攥着一张能用的表。
先说他试下来稳赚时间的活。
第一个是写一个爬 YouTube 视频信息的脚本,第一次就跑通了,能爬到2万条视频。第二个是做一个网页应用(FastAPI),逻辑清晰,AI 还自己加了点小巧思。第三个是用 Rust 写个画图的小项目,基本一次成型,中间只有一处翻车,他给了个方向提示让 AI 换一个渲染库,AI 就改好了。
最夸张的是第四类,机器学习算法的优化。他没有一句「帮我优化一下」就甩给 AI,而是搭了一条很细的流水线:先实现,再清理,再扫一遍有没有算法弱点,然后按着「这一轮要快1.4倍」这种硬指标一轮轮逼,再做性能分析,再封装,再跑基准测试,最后核对精度有没有掉。
结果是真能打。同样一个降维算法,他做出来的比 Python 现成那个快9到30倍;另一个聚类算法快3到10倍;做决策树的那个,训练速度比业界常用的 xgboost 快24到42倍。
有人不信,说他是不是把别人的代码抄过来了。他的回应挺有意思:如果我这个比现存所有的都快,那它就不可能是抄来的,必然是条原创路子。他还直接把其中一个库开源了出来,叫别人自己看。
这些活有个共同点:边界清楚,成败能量化。爬数据、接接口、做数据转换、有基准测试盯着的优化,都是「对不对一跑就知道」的活。AI 在这种地方是真省时间。
而且你注意他那个算法优化,省的不是「打字」的时间,是「我大概知道该往哪个方向走,但自己一行行实现要磨好几天」的那部分时间。他心里清楚要做什么、好坏怎么判断,缺的只是把它写出来的那道体力活。这种「方向我有、实现交给它」的活,AI 接得最稳,因为他随时能用跑分把它拽回正轨。
但他也老老实实写了 AI 抓瞎的地方。
他想做一个在终端里跑的音乐工作站,结果一路踩坑。问题出在哪?AI 看不见终端里的画面。它写出来的界面,滚动会错位,点击的位置对不上,bug 一个接一个。它不是不会写,是它压根看不到自己写出来的东西长什么样,只能蒙。
最后怎么修好的?是 Max Woolf 自己上,靠他做过质量测试的底子,亲手一通乱点,把哪儿不对、配上截图,再喂回给 AI,它才一个个改掉。
你看,这里 AI 不但没省时间,反而是他在当 AI 的眼睛。
这条规律可以推到很广:凡是 AI 看不见自己干出来的结果、需要有人实时盯着画面给反馈的活,它就抓瞎,你就得做好擦屁股的准备。
所以那条线其实已经画出来了。
交给 AI 稳赚时间的,是那些边界清晰、成败可量化的活——写算法、爬数据、接接口、转换数据、有基准测试的优化。会让你花更多时间擦屁股的,是那些它看不见结果、需要人当眼睛的活——终端界面、需要实时视觉反馈的东西。
但这条线,还不是全部。
同一个 AI,为什么 Max Woolf 用得这么顺,换个人可能一塌糊涂?他自己其实点出来了,背后有三根支柱。
一是他写了一份特别细的规则文件,告诉 AI 不许用 emoji、不许写废话注释、该用哪个工具。他说这份规则「可能就是 agent 用得好和用得烂的人之间的主要分水岭」。二是他有本事一眼看出 AI 交回来的东西对不对,他是做过质量测试的人。三是他给得出客观的反馈靶子,基准测试、跑分、对错一目了然。
普通人想照搬,难就难在这三样常常一样都没有。规则不会写,对错看不出来,靶子给不出。那 AI 飞快交给你一堆东西,你既挑不出毛病、又改不动,最后那点省下来的时间,全花在反复跟它来回掰扯上了。
把活交给 AI,有点像把活外包给一个干活飞快、但看不见自己干得对不对的实习生。它能不能帮上你,一大半不取决于它多强,取决于你能不能验收。你说得清要什么、看得出它错在哪、给得出一个明确的标准,它就是个好帮手;这三样你都没有,它干得越快,你越被动。
所以这条线根本不只是写代码的事。
任何一件想交给 AI 的活,其实都卡在三个地方:这事的成败能不能量化、能不能验证,你自己有没有本事判断它交回来的东西对不对,你能不能给它一个具体的反馈靶子。三样都占齐,交出去多半稳赚时间;缺一样,省下来的时间迟早得拿擦屁股的功夫补回去。
这套判断跟你用哪家模型没关系。换成 DeepSeek、Kimi、豆包、通义,道理一模一样——决定结果的是这件活的边界和你的验收能力,不是模型的牌子。
最后说回 Max Woolf 这个人。他从怀疑者变成了「谨慎乐观」,但没变成布道的。他说自己用了这些工具反而不焦虑了,不担心编程能力退化,还有空出门走走。他又说,看着现在围绕 AI 的吵吵闹闹,他挺丧的,可一想到它的潜力又挺兴奋,自己也分不清哪种情绪更强。他甚至坦白,不知道 AI 的未来到底会怎样。
一个肯把自己翻车和纠结都写出来的人,比一万个喊「这次真的不一样」的人,更值得听。
你呢,你把哪一类活交给 AI,最后反而比自己干还慢?
#马力的AI知识分享#
#马力在记录AI领域500位大佬的分享#
发布于 北京
