Qwen3.5性能问题_新浪新闻

呃……Qwen3.5-35B-A3B 在 llama.cpp 中每次请求都会重新预填充，速度比预期慢了大约 4 倍。有人解决这个问题了吗？我以为大家都已经顺利部署并在本地使用了？但如果这个问题还没解决，性能就非常有限了。

根本原因：GDN 层是循环的→ pos_min 跟踪完整序列→ ，但 llama.cpp 使用 SWA 阈值验证缓存，对于非 SWA 模型，该阈值默认值为 1 → pos_min > 1 始终为真→缓存始终被丢弃→每次都完全重新填充？

发布于北京