[CL]《BitNet Text Embeddings》Z Li, X Huang, L Wang, N Yang… [Microsoft Research & Peking University] (2026)
在大规模检索与语义表示领域,基于 LLM 的嵌入模型部署面临着沉重的计算与存储负担。过去的方法受困于高昂的推理延迟和海量的向量索引开销,本质原因是传统架构在追求高精度表征时,无法摆脱高位宽权重与全精度向量带来的硬件资源瓶颈。
本文的核心洞见是:把嵌入模型重新看作一个可深度压缩的 BitNet 风格编码器。由此,通过将 LLM 骨干网络转为三元权重与量化激活架构,并结合包含相似度分布与注意力关系双重引导的“教师-学生”蒸馏协议,使极低位宽模型在保持语义结构的同时实现了推理效率的翻倍。
这项工作真正留下的遗产是证明了 1.58 位量化在表示学习中的可行性,并实现了模型推理与向量存储的同步压缩。它为后来者打开的新门是支持多精度输出的单一嵌入模型,允许根据预算灵活调节存储成本,但尚未跨过的门槛是极低位宽在处理超长文档检索时仍存在微小的性能损失。
arxiv.org/abs/2606.25674 #机器学习# #人工智能# #论文# #AI创造营#
发布于 北京
