爱可可-爱生活
25-11-12 19:25 微博认证:AI博主 2025微博新锐新知博主

多向量嵌入(如ColBERT)虽强大,但扩展成本高昂。Google Research提出的MUVERA(多向量检索通过固定维度编码)创新性地将多向量表示转为固定尺寸单向量,极大节省资源。

MUVERA的核心流程包括:
1. 空间划分(k-means或LSH)
2. 线性投影降维
3. 多次重复提高准确度
4. 最终投影输出

实测LoTTE数据集,MUVERA表现令人惊艳:
- 内存占用降低约70%
- 导入时间缩短70%-85%
- HNSW图规模缩减99%

虽有部分召回率下降,但通过调整HNSW搜索参数(如ef值)可有效缓解。

这意味着大规模多向量检索的硬件门槛大幅降低,GPU资源更轻松,甚至可同时运行多模型。MUVERA不仅是技术创新,更是扩展多向量应用边界的关键。

同时需注意,MUVERA与现代基于归一化分数训练的ColBERT模型兼容性尚有挑战,需关注相关讨论和改进。

在多向量嵌入普遍面临扩展瓶颈的当下,MUVERA提醒我们:优化内存和计算效率,是推动技术落地的必由之路。技术创新不止于性能提升,更在于让复杂模型变得可用、可扩展、可持续。

更多详情与实验结果见:x.com/helloiamleonie/status/1988283076850405429

发布于 北京