Transformer-周 25-02-20 00:14
微博认证:AI博主

Deepseek NSA 这论文的最大意义其实是重构了transformer的根基,moe改了mlp层,但是这个还不够,mlp moe,又不是第一天有。而attention 层才是硬骨头,尤其是transformer的attention层,折磨人,浪费训练效率和算力的其实主要是它。NSA 这个操作会动摇现在硬件design的根基,尤其是对Transfomer优化的硬件,还有某些库,这些大概率要redesign,比如nv的transfomer-engine,这玩意儿等NSA 上了,就纯废废了[二哈][二哈][二哈]。所以我认为这论文的影响某种意义上超过R1,只是又玩模型又玩硬件的人少(比如在下[doge]),意识不到而已。它是有潜力发展成一场新的革命和洗牌的,如果说V3和R1就是个前菜,从NSA 开始,大老美的很多人也意识到了算法和优化才是王道,而且这会形成认知一致,从而推动路线的变革。

发布于 日本