清华Ktransformers团队刚刚发布更新:
大家好,KTransformers 今天迎来了更新 V0.2.3,主要更新内容如下:
1. 低精度推理优化
新增 IQ1_S/IQ2_XXS 量化乘法支持,现已兼容 Unsloth DeepSeek-R1 1.58bit/2.51bit 动态量化权重
使用 DeepSeek-R1 混合精度模型(IQ1+FP8)提高模型表现,实测单卡显存占用 19GB,系统内存占用 140GB。
2. 长上下文处理增强
实现 chunked prefill,在 24GB 显存环境下支持 DeepSeek-R1 处理最高 139K tokens 长上下文。介于DeepSeek最高只支持到128K上下文,我们的长上下文优化将告一段落。
V0.2.4 预告:
下一个版本将是 0.2 系列的最后一个子版本,将会迎来 ktransformers 从“玩具”到“实用”最关键的一个更新 -- 【多并发支持】。
0.2.4 预计在两周内发布。
后续我们将推进 0.3 版本的开发和发布,预计包括 AMX 等提升更高性能的优化,以及 AMD、XPU、摩尔、沐曦、昇腾等更多的显卡种类支持。
#支持人工智能大模型广泛应用#
#deepseek#
发布于 广东
