你说DeepSeek有了Engram, 会不会两周就发一个模型?
给大家带来刚刚发布的 DeepSeek Engram 论文精读, 其实论文挺简单的, 看不懂里面的数学部分也没关系, 因为基础思路就是经典的存算分离(静态知识检索与动态计算分离). 而论文最具闪光点的地方则是准确指出了大模型的"知识"其实是可以跟推理能力分开的.
大家都知道现在想要运行大模型特别吃硬件, 即使是KTransformers 这种已经针对MoE优化了的推理架构仍然避免不了要加载几个Expert进入显存来运算. 而 Engram 则从根本上进行了存储和推理的解耦.
其实我最好奇的是下一步会不会就是可插拔 Engram (虽然现在论文中实际上 Engram 嵌入表是和整个模型一起端到端训练的, 但不排除未来可以来个中间抽象层让他们可插拔)
这样不需要重新训练 Expert 就能更新模型知识, 或者在知识不变的情况下, 只需要重新训练 Expert 就能给模型性能进行提升, 而Expert足够小就会让模型的更新频率由8周缩短到甚至2周一个模型.
论文精读网页版地址:swim.kcores.com
往期Github合集: github.com/karminski/teach-fish-to-swim
#梁文锋署名新论文曝光#
#DeepSeekV4或引入全新记忆架构#
#ai生活指南##ai创造营##deepseek##engram#
发布于 日本
