清华Ktransformers团队刚刚发布更新：大家好，KTransformers 今天迎来了更新 V0.2.3，主要更新内容如下：1. 低精度推理优化新增 IQ1_S/IQ2_XXS 量化乘法支持，现已兼容 Unsloth DeepSeek-R1 1.58bit/2.51bit 动态量化权重使用 DeepSeek-R1 混合精度模型（IQ1+FP8）提高模型表现，实测单卡显存占

清华Ktransformers团队刚刚发布更新：
大家好，KTransformers 今天迎来了更新 V0.2.3，主要更新内容如下：
1. 低精度推理优化
新增 IQ1_S/IQ2_XXS 量化乘法支持，现已兼容 Unsloth DeepSeek-R1 1.58bit/2.51bit 动态量化权重
使用 DeepSeek-R1 混合精度模型（IQ1+FP8）提高模型表现，实测单卡显存占用 19GB，系统内存占用 140GB。

2. 长上下文处理增强
实现 chunked prefill，在 24GB 显存环境下支持 DeepSeek-R1 处理最高 139K tokens 长上下文。介于DeepSeek最高只支持到128K上下文，我们的长上下文优化将告一段落。

V0.2.4 预告：
下一个版本将是 0.2 系列的最后一个子版本，将会迎来 ktransformers 从“玩具”到“实用”最关键的一个更新 -- 【多并发支持】。
0.2.4 预计在两周内发布。

后续我们将推进 0.3 版本的开发和发布，预计包括 AMX 等提升更高性能的优化，以及 AMD、XPU、摩尔、沐曦、昇腾等更多的显卡种类支持。

#支持人工智能大模型广泛应用#
#deepseek#

发布于广东