挨踢牛魔王 26-03-03 13:09
微博认证:科技博主

千问3.5的小尺寸模型出来了。

尺寸有0.5B,2B,4B,9B,看9B版本的打分,似乎比gpt的120B、20B开源版本还略强一些。
另外,35B Moe架构的,很多本地消费级显卡也可以跑,效果挺不错的。

Qwen3.5 具备以下增强特性:

统一的视觉-语言基础:在多模态 token 上进行早期融合训练,在推理、编码、智能体和视觉理解等基准测试中,跨代际地达到与 Qwen3 相当的水平,并超越 Qwen3-VL 模型。

高效混合架构:门控 Delta 网络结合稀疏混合专家(Mixture-of-Experts)机制,实现高吞吐推理,同时保持极低的延迟和成本开销。

可扩展的强化学习泛化能力:在百万级智能体环境中进行强化学习训练,任务分布逐步复杂化,从而实现强大的现实世界适应能力。

全球语言覆盖:支持扩展至 201 种语言和方言,支持包容性、全球化的部署,并具备细致入微的文化与区域理解能力。

下一代训练基础设施:相比纯文本训练,多模态训练效率接近 100%,并采用异步强化学习框架,支持大规模智能体脚手架和环境编排。

还有一个吓死人的上下文长度:原生支持 262,144 tokens,可扩展至最多 1,010,000 tokens。
#马斯克大赞阿里模型#

项目地址:www.modelscope.cn/models/Qwen/Qwen3.5-9B

发布于 江苏