DeepSeek-V2 这个模型确实很强,尝试了一下我日常的任务都能胜任。#ai#
主要是太便宜了,开放平台送的十块钱总共有 500 万 Token 。冲个五十块钱估计够我用好几年。
模型为 MOE 架构总参数 236B 激活参数 21B,开源版本上下文 128K,API 上下文 32K 。
在8卡H800机器上,输出吞吐量超过每秒 5 万 Token。
模型权重下载:http://t.cn/A6lofvg4
发布于 北京
