t0mbkeeper
24-06-13 16:47 微博认证:科技博主

你们有没有发现国内一些大模型的测评分数跟使用感受差别很大?看测评的话,编程能力普遍都超过 70 分。其中有些确实不错,但也有的感觉连 48.1 分的 GPT-3.5 都不如。最糟糕的一个甚至连某个 Python 模块能干什么不能干什么都搞不清楚。不知道是不是又发挥了擅于跑分的特长,搞了针对性优化。 ​​​

发布于 北京