微博3B模型媲美千亿参数|微博|vibethinker-3b|deepseek v3.2|aime 2026|训练成本|参数压缩覆盖假设

#微博大模型可真能省钱#整个行业都在卷参数、烧卡时，微博用30亿参数干了一件挺打脸的事。

VibeThinker-3B，AIME 2026干到94.3分，跟671B的DeepSeek V3.2一个水平。编程对标Opus 4.5，训练成本才几万美元——隔壁MiniMax M1单次后训练就烧了53.5万。

这背后有个挺有意思的理论就是微博团队提出的“参数压缩覆盖假设”。意思是可验证推理这事，本质上是个可以被高度压缩的能力，跟需要海量参数去覆盖的开放域知识不是一回事。你堆几千亿参数，很多都用在记忆事实上了，真正的推理核心没那么大。

当然它看着有点偏科，通用对话和开放域知识跟千亿级模型差距明显。但这事的意义在于：通往智能的路，确实不止“更大”一条。在参数密度主导的赛道上，小模型一样能通向前沿。

挺好奇接下来谁会跟进这条路线。

发布于浙江