新智元 26-03-29 10:30
微博认证:新智元官方微博

把闪存股一夜干崩的谷歌顶会论文,出大事了。TurboQuant的核心方法,两年前就被一位华人学者做完、发完顶会、代码全部开源了。谷歌不仅没正面提及,而且还恶意操纵实验数据把成果贬成「次优」,即使收到邮件也拒不改正,这就是大科技公司赤裸裸的学术霸凌

3月27日晚上10点,一条推文打破了狂欢。

苏黎世联邦理工学院博士后,RaBitQ算法的第一作者高健扬公开表示:

TurboQuant论文在描述RaBitQ时存在严重问题,包括不正确的技术声明和误导性的理论、实验对比——而这些问题在投稿前就已向作者指出,对方承认了,但选择不修正。

翻译过来就是,谷歌的这篇论文,不仅抄袭了他们的核心代码,还强行拉踩!

具体来说,TurboQuant在核心方法(随机旋转)上与高健扬此前已发表的RaBitQ高度相似,但谷歌不仅未在正文中客观探讨,还在明知故犯的情况下,将RaBitQ的理论结果贬低为「次优」。

而且,根据披露的邮件记录,TurboQuant团队早在一年前就被私下告知了这些问题,但从未修正。

原文地址:http://t.cn/AXI4zffB

文章发布几小时后,各大平台的评论区里,全是网友们对谷歌激动地声讨。

对于RaBitQ,高健扬已经做了两年研究,发表了两篇顶会,而且代码全部开源。

然而现在,谷歌转手就把他的成果「重新发明」了一遍,还荣登顶会,获得全行业的称赞。

这简直就是利用大厂光环歪曲事实的学术霸权行为!

这次学术争端,核心思路集中在向量量化上。

向量量化,就是把高维空间里的向量「压小」,在尽量不丢失信息的前提下省内存、省计算。此问题可以追溯到香农的信源编码理论,是信息论里最经典的问题之一。

早在2024年5月,高健扬团队就在arXiv上发布了RaBitQ。

论文地址:http://t.cn/AXIyW6Tr

他们的核心思路是:

在量化之前,先对向量做一次随机旋转(Johnson-Lindenstrauss变换)。旋转之后,向量每个坐标的分布变得可预测,就可以用更高效的方式做量化。

虽然想法看起来很简洁,但背后的理论工作却很扎实。

在24年9月,团队又发表了扩展版论文,严格证明了这种方法达到了理论计算机顶级会议FOCS 2017给出的渐近最优误差界。

因此,高健扬被邀请到FOCS的Workshop做报告。随后,RaBitQ先后发表在数据库领域顶会SIGMOD 2024和SIGMOD 2025上,代码全部开源。

谁能想到,这居然给谷歌的研究者们提供了方便。

他们这次发表的TurboQuant,核心也是随机旋转+向量量化,这不就是RaBitQ在2024年5月就公开发表的核心架构吗?

可以说,谷歌,这就是在赤裸裸地抄袭!