【#DeepSeek神秘模型Model1现身GitHub# 】
2025年1月20日,DeepSeek正式发布DeepSeek-R1模型,开启开源LLM新时代。一年后,DeepSeek新模型在GitHub悄然现身,名为"Model1"的神秘模型引发关注。
网友猜测,Model1很可能是DeepSeek即将在春节前后发布的新模型代号。
据机器之心推测,根据2026年1月提交的flashmla库代码变更,Model1或为DeepSeek-V4内部开发代号,以下是根据代码 diff 提取的技术细节分析:
🔹架构回归512维标准:Model1从V3.2的576维切换至512维,或为适配Blackwell架构算力
🔹全面支持Blackwell GPU:新增SM100接口优化,B200上Sparse MLA已达350 TFlops
🔹引入Token-level Sparse MLA:支持FP8 KV Cache混合精度,优化长上下文推理
🔹新机制VVPA与Engram:解决长文本位置信息衰减,突破分布式存储瓶颈
从代码逻辑看,Model1与V3.2并列独立,非补丁而是全新架构——按命名惯例,V3.2之后的旗舰级跨越,即为V4。 (来源:机器之心)
