【当400B巨兽遇上17B激活:Qwen3.5的速度革命与争议】
通义千问团队发布了新一代旗舰模型Qwen3.5-397B-A17B,这个名字背后藏着一个巧妙的平衡术:总参数量397B,但每次推理只激活17B参数。这种MoE(混合专家)架构让它的解码速度达到了前代Qwen3-235B的3.5到7.2倍,但社区对实际表现的评价却呈现两极分化。
+ 速度狂飙背后的取舍
在OpenRouter的原生服务商上,这个模型能跑出39 tokens/秒的速度,配合最高可扩展至100万token的上下文窗口,理论性能相当诱人。但有用户发现,在化学和数学可视化任务上,它的输出质量明显不如Qwen3 VL 235B。这引发了一个尖锐的讨论:当激活参数从30B砍到17B,我们究竟是在挑战scaling law,还是在向硬件短缺妥协?
有评论直言不讳地指出,这个决策可能与中美GPU博弈有关。美国先对华禁售高端GPU,去年12月解禁H200后,中国政府反过来限制H200进入本土市场。GPU供应的不确定性,似乎正在重塑模型架构的选择。
+ OCR领域的意外惊喜
尽管在某些领域表现存疑,Qwen3.5在OCR任务上的表现令人眼前一亮。多位用户测试后认为,它是目前最强的开源图像模型,接近Gemini 3的水平,在处理手写笔记和手绘图形转Markdown时展现出独特优势。一位用户甚至成功用它解码了18世纪的古文献,模型聪明到能够还原那些年代久远的缩写词,并把它们放入正确的语境。
这个能力的意义在于:市场上每周都有新的OCR小模型发布,但几乎没有一个能像Qwen3.5这样真正理解图像,尤其是手写内容。图像理解能力,正在成为OCR任务的新门槛。
+ 硬件门槛与量化之争
对于想在本地运行这个模型的用户来说,硬件需求是个现实问题。FP16精度下需要807GB内存,即便是Q4量化版本也要214GB。社区迅速展开了各种硬件组合方案的讨论:有人推荐8块24GB的Tesla P40组成192GB配置,价格约1600美元;有人靠EPYC Rome系统配256GB DDR4内存加多块GPU;还有人盯上了Mac Studio的256GB统一内存。
但Q2量化版本虽然只需149GB,却引发了新的争议:2bit量化的400B模型,是否真的比4bit量化的30B模型更好?这个问题没有简单答案,因为量化损失和模型容量之间的关系,远比我们想象的复杂。
+ 商业定价的反常识现象
API定价出现了一个有趣的现象:Qwen3.5-Plus版本的价格竟然低于开源权重版本。谜底在于阶梯定价机制,当token数量达到一定规模时,价格会相应上调。Plus版本的速度快一倍,但有用户发现它在某些任务上的表现反而不如开源版本,可能是提示词适配的问题。
从年初的每百万token 0.6美元涨到现在的价格,让一些用户开始转向Grok 4.1 fast等替代方案。定价策略的微妙变化,正在悄然改变用户的选择。
+ 工具调用的隐藏问题
一位用户的个人基准测试显示,Qwen3.5-397B是第一个全部答对他六道刁钻问题的开源模型,此前只有Gemini 2.5和3.0做到过。但通过OpenRouter使用时,约一半的AI工具调用是无效的,要么调用不存在的工具,要么把调用放进代码块里。这个问题暴露了一个现实:即便模型在纯推理任务上表现出色,在实际应用场景中仍可能遇到意想不到的障碍。
+ 等待中的小模型
社区最期待的,其实是30B到80B区间的版本。按照Qwen3的发布节奏推测,小模型可能要等三个月左右。有人猜测下一个会是35B版本,可能因为视觉能力会多5B参数。但对于大多数个人用户来说,400B级别的模型更像是技术展示,真正实用的仍然是那些能在消费级硬件上流畅运行的中等规模模型。
这次发布引发的最深层思考,或许是一位用户的感慨:既兴奋又遗憾的是,现在是中国公司在和其他中国公司竞争。这句话道出了当前开源AI竞争格局的一个事实。
模型发布页面:huggingface.co/Qwen/Qwen3.5-397B-A17B
reddit.com/r/LocalLLaMA/comments/1r656d7/qwen35397ba17b_is_out
