DeepSeek 突发梁文锋署名新论文:V4 新架构提前曝光? #DeepSeek发布梁文锋署名论文#
Engram机制,思想很容易理解。大模型计算很耗资源,其中很多计算只是为了在系数里存储调用固定的知识,这其实不是推理,而是查表。真正需要推理思考的计算反而没那么多。
Engram就是哈希查表,复杂度为O(1)极低,很适合做查表。因此,需要在大模型架构里,结合查表,节省算力给真需要推理的任务。
思想很简单,但是真要实现不容易。如果做出来了,又会是一个重要的大招。还是节省资源提高效率的套路。用聪明才智弥补算力不足。幸运的是,大模型的矩阵运算还是太机械了,优化空间还很大。
发布于 广东
