GLM-5.2架构解析_新浪新闻

Sebastian Raschka绘制的GLM5.2架构图
“刚补完最近发布的 GLM-5.2。它是目前最好的开源权重模型。

从架构上看，它建立在我之前介绍过的 GLM-5 和 GLM-5.1 架构之上，也就是说，它复用了 DeepSeek V3.2 中的 Multi-head Latent Attention（MLA，多头潜在注意力）和 DeepSeek Sparse Attention（DSA，DeepSeek 稀疏注意力）机制。
我之前在这里写过相关内容：magazine.sebastianraschka.com/p/technical-deepseek

这次的新东西是他们加入了 IndexShare 机制。它是一种用于 DSA 的跨层复用技巧：不再在每一层都重新计算稀疏注意力的 top-k 索引器，而是让 GLM-5.2 每隔四层才完整运行一次索引器，并让后续几层复用这些已经选中的 token 索引。这样既保留了 DSA 的思路，又能显著降低 100 万 token 推理的成本。”
#AI创造营#

发布于山东