盘古居然打赢复活赛了。
三个尺寸都挺有意思。
pro 是 500b 级别的,大体跟 minimax m3 传闻中的尺寸一样,世界知识可能差点,但干活还行。
flash 跟 GPT-OSS 120B(更正) deepseek v4 flash (划掉)一个级别的尺寸,世界知识可能差点,但胜在速度快方便。
端侧 30b a2b 这个稀疏比,比阿里的 qwen30
5b a3b,以及 Google 26b a4b 都稀疏一些,如果量化精度搞到 q1.58,在手机上可以只吃 6GB 内存,对带宽需求也不大。他们之前跑通了 minicpm 8b 的 1.58bit 量化精度。
外加也上了 swa 机制,估计缓存率跟 DeepSeek 一致。
虽然可能是 shit,但我也要尝尝。
发布于 北京
