你们有没有发现国内一些大模型的测评分数跟使用感受差别很大？看测评的话，编程能力普遍都超过 70 分。其中有些确实不错，但也有的感觉连 48.1 分的 GPT-3.5 都不如。最糟糕的一个甚至连某个 Python 模块能干什么不能干什么都搞不清楚。不知道是不是又发挥了擅于跑分的特长，搞了针对性优化。

发布于北京