大模型后端代码测试结果

主流大模型都跑完了，给大家正式带来大模型后端代码能力测试——vector-db-bench!

这个测试只为了回答一个问题：写后端代码该用哪个模型？

为了这个测试我实现了一个完整的测试+跑分+类似精简版ClaudeCode的大模型写代码Agent(还能自动跑perf打火焰图给大模型自己分析自己写的哪里有性能热点)

测试内容是, 让大模型用 rust 实现一个简单但是高性能的向量数据库, 评测谁牛X也及其简单, 就是后端码农的浪漫： QPS 无脑高就行。(当然数据库还要能用, 所以recall不能低于95%)

管你用什么黑魔法, 内联汇编, AVX512, 循环展开, 双重索引，能上的统统统统给我上。

来看结论：

Claude-Opus-4.6 当之无愧第一，QPS： 3548
Gemini-3-pro 第二名，QPS：1971
Qwen-3.5-Plus 第三名：QPS：1405

说实话向量数据库本身的运算核心就两点，第一，找到最有可能的向量，第二，计算到底是不是。

而SIMD优化(用来计算两个向量的欧氏距离确定相似度)各个模型都会用，在这道题里不会用SIMD的模型得分只有个位数。关键在于，怎样正好卡着recall 95%的边边尽可能变态优化.

而Claude 参透了这个测试的本质，他使用了 16384的聚类和112的探测数，达到了全场最低的数据扫描比例0.68%,（不懂向量数据库的同学可以理解为它极致的摊平了索引，让扫描比对向量的次数尽可能小）。然后还用了Batch 距离+预取，Top-K策略也是极致的用了手写 max-heap + 早停。甚至内存布局上用了CSR数据结构实现连续内存优化。

技术细节就不多说了，想要跟AI学习一波rust优化技巧的同学可以看下面的最优解详情学习：vector-db-bench.kcores.com/zh/

总结是，如果你写后端代码，目前最好的选择依旧是嗷嗷贵的opus-4.6, 别的不要选，实在不行再 gemini-3-pro, 再次是gpt-5.3-codex. Qwen3.5-plus 建议有耐心的同学选，因为它的表现不是特别稳定，总计3轮的测试中，只有一轮是高分，其他两轮的表现跟kimi和glm差不多。国产模型除了Qwen3.5则建议Kimi-K2.5.

而最可怕的opus-4.6在三轮中每次都能刷到3000+QPS的高分。一分钱一分货石锤了。sonnet-4.6和gemini-3.1-pro 则有赶鸭子上架的嫌疑，打不过上一代模型。

另外测试框架和测试数据都是开源的，欢迎大家提出建议或者贡献PR~：github.com/KCORES/vector-db-bench

#HOW I AI##KCORES大模型竞技场#

发布于日本