AI圈的1天,相当于人间1年。
相信最近有不少人在家里捣鼓显卡,尝试跑一个本地版的DeepSeek,无奈显存有限,只能搞一个小参数蒸馏版的当玩具来玩。
不过,今天有个好消息:
DeepSeek的推理又有了显著的提升,相比纯 CPU 方案(如 llama.cpp),混合计算使预填充速度提升了近 【28】 倍。
这个是充分利用了Intel CPU的AMX指令进行了优化,同时也利用了GPU,跟纯CPU方法来比速度,有点胜之不武,但毕竟对于家用电脑或中小企业来说,可以说把能用的算力几尽榨干了。
对于一些细节感兴趣的可以看图片,图片是DeepSeek自己总结的。
项目开源地址: github.com/kvcache-ai/ktransformers/
发布于 广东
