DeepSeek Model1代码泄露

#DeepSeek神秘模型Model1现身GitHub#DeepSeek这个代号“Model1”的新模型代码泄露，技术细节看着很硬核，但对普通用户来说，其实可以简单理解为：下一代的AI助手，会更快、更聪明、能力更强。

那些“512维架构”、“Blackwell GPU优化”、“Token-level稀疏计算”等技术术语，翻译过来主要是三个提升：

1️⃣速度会更快：新架构针对最新的英伟达Blackwell芯片做了深度优化，意味着同样的问题，未来模型的响应和生成速度可能会有明显提升。这块不知道后续会不会用国产卡训练。
2️⃣ “记忆力”更好：新的VVPA和Engram机制，目的是解决AI处理超长文本（比如一本小说或很长会议记录）时“记不住前面内容”的老大难问题，让它能更连贯地理解和处理长文档。
3️⃣效率更高：通过混合精度等技术，在保持精度的同时降低计算消耗。这对用户可能意味着，未来使用同样强大的功能，所需的成本或等待时间有望减少。

简单说，这次泄露指向的是一个为下一代硬件打造、着重提升长文本处理能力和效率的旗舰模型。如果这些优化顺利落地，我们与AI对话、用它处理复杂任务的体验，可能会再上一个台阶。可以期待一下春节前后的正式发布。#用智搜高效玩转AI#http://t.cn/AXGuOiBp

发布于天津