tombkeeper
26-06-01 13:16 微博认证:2025微博新锐新知博主 科技博主

我很想构建一组阅读理解-语义逻辑测试集,每条不大于 140 个字,一共 100 道题,以 qwen3.6-27b 模型能全做对为基准,然后拿各种小模型来测,看看 9b 的能得多少分,7b 的能得多少分,3b 的能得多少分,0.5b 的能得多少分,等等。

然后看看你能得多少分,看看你相当于几 b 的模型。 ​

发布于 北京