#5090D 24G##qwen3.6-27b##qwen3.6-35b-a3b #moe##TurboQuant##MTP#
经过2周测试 ,整理的算完美配置 。用于Calude Code编码、hermes-agent、openclaw
完美了,启动后都在23G以下,不超过23G
models:
# ==========================================
# 模型1: Qwen3.6-27B (代码/Agent 专用)
# 采样优化(对齐 35B-MoE 经验):
# top-k 20 → 编程需要精确输出,40 太发散
# top-p 0.9 → 更集中,减少无意义发散
# min-p 0.0 → 比 0.01 更宽松,避免截断有效 token
# samplers 简化 → 采样链越短越稳定,dry/xtc 对编程无益
# 保留 repeat-penalty 1.1 → 27B 是稠密模型,1.1 比 1.0 更合适
# MTP版本参数
# --spec-type draft-mtp
# --spec-draft-n-max 0
# --cache-type-k-draft q4_0 --cache-type-v-draft q4_0
# Qwen3.6-27B-UD-Q4_K_XL.gguf
# Qwen3.6-27B-MTP-Q4_K_M.gguf
# Qwen3.6-27B-MTP-UD-Q4_K_XL.gguf
# qwen3.6-27b-q4_k_m.gguf
# ==========================================
"qwen3.6-27b":
cmd: |
/home/loomz/.llama.cpp/llama.cpp/build/bin/llama-server
-m /home/loomz/.llama.cpp/models/Qwen3.6-27B-MTP-UD-Q4_K_XL.gguf
--host 0.0.0.0
--port ${PORT}
-c 131072
-ctk q8_0 -ctv turbo4
-ngl 999
-t 16
-b 2048 -ub 1024
--flash-attn on
--no-mmap
--prio 2
--parallel 1
--temp 0.6
--top-k 20
--top-p 0.9
--min-p 0.0
--repeat-penalty 1.1
--samplers "top_k;top_p;temperature"
--spec-type draft-mtp
--spec-draft-n-max 2
--cache-type-k-draft q4_0 --cache-type-v-draft q4_0
ttl: 300
env:
- "LD_LIBRARY_PATH=/home/loomz/.llama.cpp/llama.cpp/build/bin:/usr/local/cuda/lib64"
- "CUDA_VISIBLE_DEVICES=0"
# ==========================================
# 模型3: Qwen3.6-35B-A3B (MoE 混合专家模型)
# 硬件: RTX 5090D 24G | 场景: 快速响应的 编码 + Agent
# 采样: 编程用 temp 0.6/top_k 20, Agent 用 temp 0.7
# ==========================================
"qwen3.6-35b":
cmd: |
/home/loomz/.llama.cpp/llama.cpp/build/bin/llama-server
-m /home/loomz/.llama.cpp/models/Qwen3.6-35B-A3B-UD-Q4_K_M.gguf
--host 0.0.0.0
--port ${PORT}
-c 131072
-ctk q8_0 -ctv turbo4
-ngl 999
-t 16
-b 1024 -ub 512
--flash-attn on
--no-mmap
--prio 2
--parallel 1
--temp 0.6
--top-k 20
--top-p 0.9
--min-p 0.0
--repeat-penalty 1.1
--samplers "top_k;top_p;temperature"
--chat-template-kwargs '{"enable_thinking":true}'
--n-cpu-moe 0
--verbose
ttl: 300
env:
- "LD_LIBRARY_PATH=/home/loomz/.llama.cpp/llama.cpp/build/bin:/usr/local/cuda/lib64"
- "CUDA_VISIBLE_DEVICES=0"
发布于 广东
