唐杰THU 26-01-27 11:24
微博认证:清华大学教授,AMiner创始人 唐杰

最近开源了30B的Sota模型,GLM-4.7-Flash,http://t.cn/AXGHF7bW

简单理解:总参数小,但 MoE(混合专家)设计让每一轮真正“干活”的参数更少,推理更轻,还能打一大堆 30B~70B 级别的对手。

奔着又快又省资源来的,尤其适合不想上超大模型、但又希望能力不要太打折的场景——本地跑一跑,做个小代理、帮你搞代码、读网页、写文档,都比较合适
co/zai-org/GLM-4.7-Flash 。

部署方面也做了不少适配:vLLM、SGLang 和 transformers 都有支持,还给好了示例代码和启动命令,连 spec-decoding 这类加速技巧都安排上了
。简单说就是:你可以把它当成“性能小号版 GLM-4.7”,在不把显卡打爆的前提下,体验还不错。

如果你手头资源有限、又想试试 30B 级别里能打的模型,GLM-4.7-Flash 算个值得上手玩玩的小玩具。 by glm

发布于 北京