爱可可-爱生活 26-03-21 12:07
微博认证:AI博主 2025微博新锐新知博主

【为什么Qwen3.5在简单对话中表现糟糕?因为它根本不想聊天】

快速阅读:Qwen3.5系列模型是专为智能体任务训练的"工作犬",需要充足的上下文和明确指令才能发挥最佳性能。27B模型至少需要3K tokens的系统提示,否则会陷入漫无目的的思考。35B MoE版本存在量化问题,表现不如27B稳定。

---

Reddit用户dinerburgeryum最近深度测试了Qwen3.5系列,做了三十多个定制量化版本,用了三种不同的执行后端。他的核心发现是:这个模型讨厌空洞的对话。

你给它14个token的系统提示?准备好迎接灾难。27B模型在3K tokens以下基本无法工作,它会疯狂思考到5K tokens才明白自己该做什么。

这其实说得通。Qwen3.5是智能体优先训练出来的模型。智能体需要了解自己的环境、可用工具、工作模式(架构师、程序员还是审查员)。没有系统提示或预填充时,它们会漫无目的地乱转,直到找到可以抓住的东西。

阿里巴巴训练出的是开源模型界的工作犬,不是宠物狗。

有用户用122B模型配合严格的600 token系统提示,效果远好于更长的提示。关键是明确行为指令,而非依赖模式匹配。另一位用户发现9B模型在特定任务上表现惊人,只要给它足够大和明确的系统提示,配合完整上下文窗口。

不少开发者报告Qwen3.5会"过度思考"。但dinerburgeryum认为这只是因为它没得到足够的上下文。给它些东西去咀嚼,它就会埋头工作。

有观点提到,122B模型通过了所有测试,可以在Claude Code中替代Sonnet,工具调用准确,指令理解清晰,上下文保持良好。

至于35B MoE版本?dinerburgeryum直言"有点垃圾"。它的注意力张量小到让人怀疑,量化后经常无法正确闭合推理块,在Kilo Code和Cline中频繁出错。不过也有用户报告在NVFP4和fp8_e4m3精度下表现稳定。

实际应用中的教训:如果你在智能体循环中使用Qwen3.5遇到质量问题,先把系统提示加倍,再考虑责怪模型。十次有九次,问题出在提示上。

这类模型有强烈的检索驱动特性。在生产环境部署时,它们会积极通过工具获取上下文——网络搜索、API调用、内存读取。当工具涉及成本时(LLM调用、外部API),这种"工作犬"特质可能导致预算迅速耗尽。实用建议是在密钥层面做支出隔离,而非全局预算上限。

ref: reddit.com/r/LocalLLaMA/comments/1ryljps/qwen35_is_a_working_dog

#AI创造营##人工智能#

发布于 北京