karminski-牙医 26-03-01 09:28
微博认证:AI博主

主流大模型都跑完了,给大家正式带来大模型后端代码能力测试——vector-db-bench!

这个测试只为了回答一个问题:写后端代码该用哪个模型?

为了这个测试我实现了一个完整的测试+跑分+类似精简版ClaudeCode的大模型写代码Agent(还能自动跑perf打火焰图给大模型自己分析自己写的哪里有性能热点)

测试内容是, 让大模型用 rust 实现一个简单但是高性能的向量数据库, 评测谁牛X也及其简单, 就是后端码农的浪漫: QPS 无脑高就行。(当然数据库还要能用, 所以recall不能低于95%)

管你用什么黑魔法, 内联汇编, AVX512, 循环展开, 双重索引,能上的统统统统给我上。

来看结论:

Claude-Opus-4.6 当之无愧第一,QPS: 3548
Gemini-3-pro 第二名,QPS:1971
Qwen-3.5-Plus 第三名:QPS:1405

说实话向量数据库本身的运算核心就两点,第一,找到最有可能的向量,第二,计算到底是不是。

而SIMD优化(用来计算两个向量的欧氏距离确定相似度)各个模型都会用,在这道题里不会用SIMD的模型得分只有个位数。关键在于,怎样正好卡着recall 95%的边边尽可能变态优化.

而Claude 参透了这个测试的本质,他使用了 16384的聚类和112的探测数,达到了全场最低的数据扫描比例0.68%,(不懂向量数据库的同学可以理解为它极致的摊平了索引,让扫描比对向量的次数尽可能小)。然后还用了Batch 距离+预取,Top-K策略也是极致的用了手写 max-heap + 早停。甚至内存布局上用了CSR数据结构实现连续内存优化。

技术细节就不多说了,想要跟AI学习一波rust优化技巧的同学可以看下面的最优解详情学习:vector-db-bench.kcores.com/zh/

总结是,如果你写后端代码,目前最好的选择依旧是嗷嗷贵的opus-4.6, 别的不要选,实在不行再 gemini-3-pro, 再次是gpt-5.3-codex. Qwen3.5-plus 建议有耐心的同学选,因为它的表现不是特别稳定,总计3轮的测试中,只有一轮是高分,其他两轮的表现跟kimi和glm差不多。国产模型除了Qwen3.5则建议Kimi-K2.5.

而最可怕的opus-4.6在三轮中每次都能刷到3000+QPS的高分。一分钱一分货石锤了。sonnet-4.6和gemini-3.1-pro 则有赶鸭子上架的嫌疑,打不过上一代模型。

另外测试框架和测试数据都是开源的,欢迎大家提出建议或者贡献PR~:github.com/KCORES/vector-db-bench

#HOW I AI##KCORES大模型竞技场#

发布于 日本