#微博大模型可真能省钱#整个行业都在卷参数、烧卡时,微博用30亿参数干了一件挺打脸的事。
VibeThinker-3B,AIME 2026干到94.3分,跟671B的DeepSeek V3.2一个水平。编程对标Opus 4.5,训练成本才几万美元——隔壁MiniMax M1单次后训练就烧了53.5万。
这背后有个挺有意思的理论就是微博团队提出的“参数压缩覆盖假设”。意思是可验证推理这事,本质上是个可以被高度压缩的能力,跟需要海量参数去覆盖的开放域知识不是一回事。你堆几千亿参数,很多都用在记忆事实上了,真正的推理核心没那么大。
当然它看着有点偏科,通用对话和开放域知识跟千亿级模型差距明显。但这事的意义在于:通往智能的路,确实不止“更大”一条。在参数密度主导的赛道上,小模型一样能通向前沿。
挺好奇接下来谁会跟进这条路线。
发布于 浙江
