梁斌penny 26-02-09 17:51
微博认证:知名互联网博主 2025微博年度新知博主

刚才在HuggingFace上看到,Qwen3.5已经提交了并入Transformers的PR。这意味着阿里的新一代基座模型很快就要正式开源了。

这次的Qwen3.5有点意思:
1.混合注意力机制,据说是全新架构;
2.大概率是原生VLM,能看懂图像了;
3.开源包至少包含2B密集模型和35B-A3B的MoE版本。
值得关注的是,这是国内首个混合推理模型。简单说就是把快思考和慢思考结合起来,既有速度又有深度。这种设计在算力消耗上有明显优势,对开发者很友好。

其实从去年Qwen3登顶开源榜就能看出,阿里在模型架构上确实有一套。现在3.5版本继续这个势头,加上智谱唐老师之前预告的DeepSeek-v4、GLM-5也要来,今年二月中国大模型圈要热闹了。开源生态现在越来越重要。模型好不好,最后要看开发者用不用得起来。Qwen3.5这个开源策略很聪明,既展示了技术实力,又能快速建立生态。

不由感叹技术发展真快。去年这个时候大家还在讨论Qwen2.5,现在3.5都要来了。这种迭代速度,对行业是好事,对开发者也是机会。等Qwen3.5正式开源了,咱也上手试试效果。[挤眼]

发布于 中国香港