GLM-4.7-Flash模型开源

最近开源了30B的Sota模型，GLM-4.7-Flash，http://t.cn/AXGHF7bW

简单理解：总参数小，但 MoE（混合专家）设计让每一轮真正“干活”的参数更少，推理更轻，还能打一大堆 30B～70B 级别的对手。

奔着又快又省资源来的，尤其适合不想上超大模型、但又希望能力不要太打折的场景——本地跑一跑，做个小代理、帮你搞代码、读网页、写文档，都比较合适
co/zai-org/GLM-4.7-Flash 。

部署方面也做了不少适配：vLLM、SGLang 和 transformers 都有支持，还给好了示例代码和启动命令，连 spec-decoding 这类加速技巧都安排上了
。简单说就是：你可以把它当成“性能小号版 GLM-4.7”，在不把显卡打爆的前提下，体验还不错。

如果你手头资源有限、又想试试 30B 级别里能打的模型，GLM-4.7-Flash 算个值得上手玩玩的小玩具。 by glm

发布于北京