风云学会陈经 26-01-13 08:00
微博认证:亚洲视觉科技 研发总监 2024微博年度新知博主 长文原创作者 财经观察官

DeepSeek 突发梁文锋署名新论文:V4 新架构提前曝光? #DeepSeek发布梁文锋署名论文#

Engram机制,思想很容易理解。大模型计算很耗资源,其中很多计算只是为了在系数里存储调用固定的知识,这其实不是推理,而是查表。真正需要推理思考的计算反而没那么多。

Engram就是哈希查表,复杂度为O(1)极低,很适合做查表。因此,需要在大模型架构里,结合查表,节省算力给真需要推理的任务。

思想很简单,但是真要实现不容易。如果做出来了,又会是一个重要的大招。还是节省资源提高效率的套路。用聪明才智弥补算力不足。幸运的是,大模型的矩阵运算还是太机械了,优化空间还很大。

发布于 广东