GLM-4.7-Flash 量化版本重复输出内容怎么办?
GLM-4.7-Flash 的各种量化版本都发布了, 但很多朋友本地跑 GGUF 量化版时都遇到了模型开始车轱辘话,疯狂重复输出的问题。
大家第一反应是都是调 repeat-penalty 结果并不怎么管用.
我刚看了下 Unsloth 写的教程, 破案了: GLM-4.7-Flash 需要的是 dry-multiplier,不是 repeat-penalty。这俩不是一回事。
dry-multiplier 是 llama.cpp 引入的一种更智能的重复抑制机制,它不会简单粗暴地惩罚重复 token,而是检测"干涸"模式——当模型开始原地打转时介入。
推荐参数是这样的:
--temp 0.2 --top-k 50 --top-p 0.95 --min-p 0.01 --dry-multiplier 1.1
如果还是重复,把 dry-multiplier 提高到 1.5。
但有个坑:工具调用场景下,干脆把 dry-multiplier 降到 0 或禁用。因为工具调用本身就有大量重复结构,开着反而影响正常输出。
以及还有一个坑:LM Studio 不支持 dry-multiplier。怎么办?把 Repeat Penalty 完全禁用或设为 1。别调高,调高反而更糟。
智谱官方也给了一套参数:通用场景 temp 1.0 + top-p 0.95,工具调用 temp 0.7 + top-p 1.0。两套都可以试试,看哪个更适合你的场景。
另外 CPU 占用飙高、上下文处理变慢的话,可以尝试 --flash-attn off 禁用 flash attention。
这次 Unsloth 提供了 19 种量化格式,从 11.9GB 的 UD-Q2_K_XL 到 35.1GB 的 UD-Q8_K_XL 都有。
推荐至少 UD-Q5_K_M,平衡体积和质量。追求高质量就上 Q6_K 或 Q8_0。显存紧张就只能 UD-Q3_K_XL(13.8GB)凑合用了
UD 系列是 Unsloth 的动态量化,关键层保留更高精度,同体积下比标准量化质量更好。
#ai生活指南# #ai创造营##HOW I AI#
