GLM-4.7-Flash重复输出处理

GLM-4.7-Flash 量化版本重复输出内容怎么办?

GLM-4.7-Flash 的各种量化版本都发布了, 但很多朋友本地跑 GGUF 量化版时都遇到了模型开始车轱辘话，疯狂重复输出的问题。

大家第一反应是都是调 repeat-penalty 结果并不怎么管用.

我刚看了下 Unsloth 写的教程, 破案了: GLM-4.7-Flash 需要的是 dry-multiplier，不是 repeat-penalty。这俩不是一回事。

dry-multiplier 是 llama.cpp 引入的一种更智能的重复抑制机制，它不会简单粗暴地惩罚重复 token，而是检测"干涸"模式——当模型开始原地打转时介入。

推荐参数是这样的：

--temp 0.2 --top-k 50 --top-p 0.95 --min-p 0.01 --dry-multiplier 1.1

如果还是重复，把 dry-multiplier 提高到 1.5。

但有个坑：工具调用场景下，干脆把 dry-multiplier 降到 0 或禁用。因为工具调用本身就有大量重复结构，开着反而影响正常输出。

以及还有一个坑：LM Studio 不支持 dry-multiplier。怎么办？把 Repeat Penalty 完全禁用或设为 1。别调高，调高反而更糟。

智谱官方也给了一套参数：通用场景 temp 1.0 + top-p 0.95，工具调用 temp 0.7 + top-p 1.0。两套都可以试试，看哪个更适合你的场景。

另外 CPU 占用飙高、上下文处理变慢的话，可以尝试 --flash-attn off 禁用 flash attention。

这次 Unsloth 提供了 19 种量化格式，从 11.9GB 的 UD-Q2_K_XL 到 35.1GB 的 UD-Q8_K_XL 都有。

推荐至少 UD-Q5_K_M，平衡体积和质量。追求高质量就上 Q6_K 或 Q8_0。显存紧张就只能 UD-Q3_K_XL（13.8GB）凑合用了

UD 系列是 Unsloth 的动态量化，关键层保留更高精度，同体积下比标准量化质量更好。

#ai生活指南# #ai创造营##HOW I AI#

发布于日本