4090单卡跑满血版DeepSeek-R1
清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目公布更新:支持24G显存在本地运行DeepSeek-R1、V3的671B满血版。预处理速度最高达到286 tokens/s,推理生成速度最高能达到14 tokens/s。
GitHub 地址:http://t.cn/A61zs78U
具体技术细节指路:http://t.cn/A61zs784
http://t.cn/A61wl9bH
备注:Support Deepseek-R1 and V3 on single (24GB VRAM)/multi gpu and 382G DRAM, 内存要382GB
还需要支持AMX指令集的CPU和至少644G RAM。
发布于 广东
