deepseek还有很大的智能提升空间。
DeepSeek-V4-Pro(总参数量 1.6T,激活参数量 49B)虽然确实比 DeepSeek-V4-Flash(总参数量 284B,激活参数量 13B)更聪明。
但是DeepSeek-V4-Pro参数这么大,在智能上提升的比例,是和这个规模完全不相称的。
用综合效果来说,DeepSeek-V4-Flash在这个参数规模上,效果表现明显更好。
可能是deepseek第一次训练1.6T这么大的模型,还有很多问题需要解决。
所以,发布的是预览版,而不是正式版。
这个中间肯定还有很多事情要做。
等在1T规模站稳后,大量的优化就出来了。
发布于 江苏
