Deepseek NSA 这论文的最大意义其实是重构了transformer的根基，moe改了mlp层，但是这个还不够，mlp moe，又不是第一天有。而attention 层才是硬骨头，尤其是transformer的attention层，折磨人，浪费训练效率和算力的其实主要是它。NSA 这个操作会动摇现在硬件design的根基，尤其是对Transfomer优化的

Deepseek NSA 这论文的最大意义其实是重构了transformer的根基，moe改了mlp层，但是这个还不够，mlp moe，又不是第一天有。而attention 层才是硬骨头，尤其是transformer的attention层，折磨人，浪费训练效率和算力的其实主要是它。NSA 这个操作会动摇现在硬件design的根基，尤其是对Transfomer优化的硬件，还有某些库，这些大概率要redesign,比如nv的transfomer-engine,这玩意儿等NSA 上了,就纯废废了[二哈][二哈][二哈]。所以我认为这论文的影响某种意义上超过R1,只是又玩模型又玩硬件的人少(比如在下[doge])，意识不到而已。它是有潜力发展成一场新的革命和洗牌的，如果说V3和R1就是个前菜，从NSA 开始，大老美的很多人也意识到了算法和优化才是王道，而且这会形成认知一致，从而推动路线的变革。

发布于日本