Childe陶 26-04-24 17:00
微博认证:体育博主

#DeepSeekV4深度适配华为芯片##DeepSeekV4比海外模型便宜约60%#【#DeepSeekV4深度适配华为芯片#】DeepSeek今天正式发布V4系列预览版并同步开源,分为V4-Pro和V4-Flash两个版本,主打100万(1M)超长上下文能力,官网、App及API均已同步更新。#DeepSeekV4深度适配国产芯片#

据科技博主卡兹克实测,DeepSeekV4大概比海外模型平均便宜60%左右。

DeepSeek V4的报告里,透露出非常多国产化的细节

1. V4在后训练和推理体系里引入了MXFP4。

虽然训练还是用的英伟达体系,但是在后训练和推理上用这个基本上就意味着,DeepSeek在往开放低精度格式和多硬件适配方向走,可以适配国产卡比如华为昇腾、寒武纪、壁仞等等。

2. V4的底层内核不再完全靠CUDA写,用了一个叫TileLang的DSL。DeepSeek希望底层算子开发不要完全锁死在CUDA上,而是用更高一层的语言描述计算,再尽量编译到不同硬件上,这个非常牛逼,可以大大降低迁移成本。

3. V4专门搞了一个叫MegaMoE的融合内核,设计目标是减少专家并行中的通信等待,目前已经在华为昇腾上跑通。

卡兹克称:“这三条放一起,方向就非常清楚了,V4是完完全全的,为了国产卡而设计的模型。”(综合卡兹克)#DeepSeek v4 百万上下文#

发布于 江西