默庵·超级个体 26-03-17 14:34
微博认证:微博新知博主 科技博主 头条文章作者 微博原创视频博主

阿里巴巴做了一个挺硬核的实验:花了233天,在100个真实的代码库上,用18个AI编程代理做了一轮长期跟踪测试。

结果挺扎心的。

75%的模型会破坏掉之前本来跑得好好的代码。也就是说,你让AI帮你改代码,改完之后,原来没问题的地方反而出了问题。这个比例高得有点吓人。

更要命的是,所有参与测试的模型,无一例外,都显著增加了技术债。什么意思呢?就是代码表面上看着能跑,但底下埋了一堆隐患,结构变差了,可维护性降低了,后面要花更多的时间和精力去收拾烂摊子。

这个测试的价值在于它够真实,够长期。不是拿几个demo跑一下就出结论,而是在真实项目里持续观察了大半年。100个代码库、18个代理,样本量也足够说明问题。

说白了,现阶段的AI写代码,短期看效率确实高,但长期看,它可能在悄悄给你挖坑。你今天省下的时间,未来可能要加倍还回去。

这也给所有用AI辅助编程的团队提了个醒:AI生成的代码一定要有人审,不能闭着眼睛就合进主分支。效率和质量之间的平衡,目前还远没有被解决。

#How I AI##科技先锋官#

发布于 山东