DeepSeek发新模型新架构降本50%

【DeepSeek又发新模型新架构，成本降50%开挖英伟达墙角】 #deepseek##超级AI工厂##大模型##英伟达# DeepSeek-V3.2-Exp刚刚官宣上线，不仅引入了新的注意力机制——DeepSeek Sparse Attention。还开源了更高效的TileLang版本GPU算子！目前，官方App、网页端、小程序均已同步更新，同时还有API大减价：5折起。好玩的是，DeepSeek开始阴英伟达了，DeepSeek还表示，在新模型研发过程中，需要设计和实现很多新的GPU算子。他们使用高级语言TileLang进行快速原型开发，并在最后阶段，以TileLang作为精度基线，逐步使用底层语言实现更高效的版本。官方还附上一句：我们建议社区在进行研究性实验时，使用基于TileLang的版本以方便调试和快速迭代，不要用CUDA。阿哈哈@新浪人工智能 http://t.cn/AX7o9mOb

发布于北京