Qwen3.5对话表现分析

【为什么Qwen3.5在简单对话中表现糟糕？因为它根本不想聊天】

快速阅读：Qwen3.5系列模型是专为智能体任务训练的"工作犬"，需要充足的上下文和明确指令才能发挥最佳性能。27B模型至少需要3K tokens的系统提示，否则会陷入漫无目的的思考。35B MoE版本存在量化问题，表现不如27B稳定。

---

Reddit用户dinerburgeryum最近深度测试了Qwen3.5系列，做了三十多个定制量化版本，用了三种不同的执行后端。他的核心发现是：这个模型讨厌空洞的对话。

你给它14个token的系统提示？准备好迎接灾难。27B模型在3K tokens以下基本无法工作，它会疯狂思考到5K tokens才明白自己该做什么。

这其实说得通。Qwen3.5是智能体优先训练出来的模型。智能体需要了解自己的环境、可用工具、工作模式（架构师、程序员还是审查员）。没有系统提示或预填充时，它们会漫无目的地乱转，直到找到可以抓住的东西。

阿里巴巴训练出的是开源模型界的工作犬，不是宠物狗。

有用户用122B模型配合严格的600 token系统提示，效果远好于更长的提示。关键是明确行为指令，而非依赖模式匹配。另一位用户发现9B模型在特定任务上表现惊人，只要给它足够大和明确的系统提示，配合完整上下文窗口。

不少开发者报告Qwen3.5会"过度思考"。但dinerburgeryum认为这只是因为它没得到足够的上下文。给它些东西去咀嚼，它就会埋头工作。

有观点提到，122B模型通过了所有测试，可以在Claude Code中替代Sonnet，工具调用准确，指令理解清晰，上下文保持良好。

至于35B MoE版本？dinerburgeryum直言"有点垃圾"。它的注意力张量小到让人怀疑，量化后经常无法正确闭合推理块，在Kilo Code和Cline中频繁出错。不过也有用户报告在NVFP4和fp8_e4m3精度下表现稳定。

实际应用中的教训：如果你在智能体循环中使用Qwen3.5遇到质量问题，先把系统提示加倍，再考虑责怪模型。十次有九次，问题出在提示上。

这类模型有强烈的检索驱动特性。在生产环境部署时，它们会积极通过工具获取上下文——网络搜索、API调用、内存读取。当工具涉及成本时（LLM调用、外部API），这种"工作犬"特质可能导致预算迅速耗尽。实用建议是在密钥层面做支出隔离，而非全局预算上限。

ref: reddit.com/r/LocalLLaMA/comments/1ryljps/qwen35_is_a_working_dog

#AI创造营##人工智能#

发布于北京