投行泰山 26-01-14 17:23
微博认证:财经博主

向小田学习:deepseek大招要来了,算力成本猛降

这两天不知道大家读了deepseek的论文没有,估计也没有读,现在认真读长文的也不多了,不是每个人都像我这么爱学习。。。不过不要紧,看到这个号就算你学习了,我给各位讲一下deepseek最近干了些啥。

1、deepseek提出了mHC技术,中文叫作流形约束超连接。中文就不用理解了,反正也看不懂。我给大家解释一下,就是过去在大模型训练的过程中,各种数据来回计算传输,就像汽车在路上开一样,没有交通规则,也没有红绿灯,而且还是单车道。可想而知非常混乱。

deepseek用了一个算法,用一个叫做双随机流形的东西,把这个道路管起来了。现在是双向八车道,有交通规则和红绿灯。这样训练过程连续性和稳定性就大大增强。

过去容易发生的车祸少了,系统就不容易崩溃。炒股最怕市场突然安静,训练最怕系统突然崩溃啊,这种对成本的节约是非常大的——OpenAI有阵子说,他们用N卡做训练,某个型号5k卡集群每天有1/3时间系统在重启。mHC技术还把内存访问的成本降低了60%。算力的效率也得到了大幅提升,成本下降35%。

2、deepseek又提出了engram技术,叫做条件记忆。什么意思呢。你这么理解,过去你跟AI交流,它都是从第一步开始推理。简单举例,比如做九九乘法,原来都是直接计算,现在等于是AI背了一个九九乘法表。你一问,它不用计算了,直接就背答案了。这就叫engram,通过给AI带了一个很大的资料库,对一些问题它不计算,它直接翻字典。

engram一下子就把GPU显存解放出来了,比传统的transformer模型降低50%以上。你就说权威不权威吧。

deepseek简直是中国之光,创新不断,特别反应了我们中国人花小钱办大事的风格。你说你芯片搞这么贵,我们怕吗,不怕啊,因为中国人最擅长的就是:降本增效。这才是最可怕的。

发布于 上海