AI圈的1天，相当于人间1年。相信最近有不少人在家里捣鼓显卡，尝试跑一个本地版的DeepSeek，无奈显存有限，只能搞一个小参数蒸馏版的当玩具来玩。不过，今天有个好消息：DeepSeek的推理又有了显著的提升，相比纯 CPU 方案（如 llama.cpp），混合计算使预填充速度提升了近【28】倍。这个是充分利

AI圈的1天，相当于人间1年。
相信最近有不少人在家里捣鼓显卡，尝试跑一个本地版的DeepSeek，无奈显存有限，只能搞一个小参数蒸馏版的当玩具来玩。
不过，今天有个好消息：
DeepSeek的推理又有了显著的提升，相比纯 CPU 方案（如 llama.cpp），混合计算使预填充速度提升了近【28】倍。
这个是充分利用了Intel CPU的AMX指令进行了优化，同时也利用了GPU，跟纯CPU方法来比速度，有点胜之不武，但毕竟对于家用电脑或中小企业来说，可以说把能用的算力几尽榨干了。

对于一些细节感兴趣的可以看图片，图片是DeepSeek自己总结的。

项目开源地址： github.com/kvcache-ai/ktransformers/

发布于广东