阿里这周已经发了三个模型了,今天压轴出场的是Qwen3-235B-A22B-Thinking-2507推理模型。
Qwen3-235B-A22B-Thinking-2507核心特性:
参数规模:总参数235B,激活参数22B
架构设计:94层,64个注意力头(Q),4个键值头(KV)
专家系统:128个专家,激活8个
在逻辑、数学和多领域深度的无缝扩展非常出色,256K原生上下文窗口对自主智能体工作流来说是变革性的。
但是有一说一,这个模型名字也太长了吧。#互联网公司#
发布于 安徽
