斌叔OKmath 26-03-16 08:53
微博认证:橙旭园CEO 教育博主

呃……Qwen3.5-35B-A3B 在 llama.cpp 中每次请求都会重新预填充,速度比预期慢了大约 4 倍。有人解决这个问题了吗?我以为大家都已经顺利部署并在本地使用了?但如果这个问题还没解决,性能就非常有限了。

根本原因:GDN 层是循环的→ pos_min 跟踪完整序列→ ,但 llama.cpp 使用 SWA 阈值验证缓存,对于非 SWA 模型,该阈值默认值为 1 → pos_min > 1 始终为真→缓存始终被丢弃→每次都完全重新填充?

发布于 北京