梁斌penny 26-02-24 08:47
微博认证:知名互联网博主 2025微博年度新知博主

很多不明真相的网友以为我们做数据服务的会搞蒸馏,是完全不懂这个行业。。本来我是不想说的,但是大家太热情了。。。

首先,我之前就写过蒸馏是一门非常复杂的学问,这里面要用到大量真实用户的请求,这都是大厂的核心隐私,怎么可能交给第三方去做?

其次,为了覆盖更多的内容,也会构造很多请求,但是这些构造方法都是各个大厂的核心技巧,怎么会透露给第三方?

最后,蒸馏的复杂性极低,自己买一些账号就能搞,不需要破风控,也不需要什么复杂的技术手段,API账号价格都非常透明,找第三方做,也不愿意为风险付出合理的价格,根本不可能找第三方的。

但是怎么让人家大厂挖到是哪个公司甚至哪个工程师了呢?我们都知道很多工程师是很自恋的,比如我第一次测试大模型,就会问:“你认识微博上的梁斌penny嘛?”。那么某大厂工程师可能就会这样问:“你认识XX大厂的杰出工程师XXX嘛?”,这些模型大厂的log都是全部保留的,一点发现有蒸馏迹象的账号,要想溯源是非常轻松的。

另外还有什么蒸馏了几千万条,这个纯属不尊重这个行业,蒸馏几千万条能覆盖什么知识点,最多就是做做后训练的时候差不多是这个量级,真的要覆盖全面的知识点,远远不是几千条能搞定的。。

我之前那条微博已经说很清楚了,现在的大模型都开始针对蒸馏投毒了,对抗性是越来越强了,只要蒸了,想神不知鬼不觉的抹去蒸馏痕迹是非常非常难的,是一门深刻的学问。。

基于以上,市场上蒸馏的订单都是购买第三方注册充值的账号,然后大厂自己蒸馏,这个就没有任何价值了,基本正常的第三方都不会提供这类服务的,所以市场其实是不存在的,都是模型大厂自己内部搞蒸馏。。

最后,我厂没有参与任何国产大厂蒸馏美帝大模型的事务中,特此声明,谢谢。

发布于 江苏