蚁工厂
26-06-19 10:56 微博认证:科技博主

Sebastian Raschka绘制的GLM5.2架构图
“刚补完最近发布的 GLM-5.2。它是目前最好的开源权重模型。

从架构上看,它建立在我之前介绍过的 GLM-5 和 GLM-5.1 架构之上,也就是说,它复用了 DeepSeek V3.2 中的 Multi-head Latent Attention(MLA,多头潜在注意力)和 DeepSeek Sparse Attention(DSA,DeepSeek 稀疏注意力)机制。
我之前在这里写过相关内容:magazine.sebastianraschka.com/p/technical-deepseek

这次的新东西是他们加入了 IndexShare 机制。它是一种用于 DSA 的跨层复用技巧:不再在每一层都重新计算稀疏注意力的 top-k 索引器,而是让 GLM-5.2 每隔四层才完整运行一次索引器,并让后续几层复用这些已经选中的 token 索引。这样既保留了 DSA 的思路,又能显著降低 100 万 token 推理的成本。”
#AI创造营#

发布于 山东