阿里巴巴AI编程代理测试结果

阿里巴巴做了一个挺硬核的实验：花了233天，在100个真实的代码库上，用18个AI编程代理做了一轮长期跟踪测试。

结果挺扎心的。

75%的模型会破坏掉之前本来跑得好好的代码。也就是说，你让AI帮你改代码，改完之后，原来没问题的地方反而出了问题。这个比例高得有点吓人。

更要命的是，所有参与测试的模型，无一例外，都显著增加了技术债。什么意思呢？就是代码表面上看着能跑，但底下埋了一堆隐患，结构变差了，可维护性降低了，后面要花更多的时间和精力去收拾烂摊子。

这个测试的价值在于它够真实，够长期。不是拿几个demo跑一下就出结论，而是在真实项目里持续观察了大半年。100个代码库、18个代理，样本量也足够说明问题。

说白了，现阶段的AI写代码，短期看效率确实高，但长期看，它可能在悄悄给你挖坑。你今天省下的时间，未来可能要加倍还回去。

这也给所有用AI辅助编程的团队提了个醒：AI生成的代码一定要有人审，不能闭着眼睛就合进主分支。效率和质量之间的平衡，目前还远没有被解决。

#How I AI##科技先锋官#

发布于山东