#微博大模型可真能省钱#
今天才知道,微博竟然还有个 AI 团队?👀
微博 AI 团队(WeiboAI)开源了一个 30 亿参数的模型:VibeThinker-3B
专攻数学和编程竞赛。
在美国高中顶级数学邀请赛级别的竞赛题、国际数学奥赛、真实竞赛编程题这些高难度测试里,
它咬住了比自己大几十倍、几百倍的模型:
GLM-5 是 744B
Kimi K2.5 是 1T(一万亿)
DeepSeek V3.2 是 671B
而它大约 6.7GB 显存就能装下,
一张消费级显卡就能本地跑,不需要机房。
💡 为什么 3B 能做到?
常识是“参数越多越聪明”,
堆参数、堆算力、烧钱,是过去几年大模型变强的主线。
一个 3B 模型,凭什么在某些题上追上千亿模型?
微博提出了一个叫“参数压缩覆盖假设”的解释,
核心就一句:“会推理”和“知识多”,是两种对参数需求完全不同的能力。
打个比方。
“会推理”更像一套能反复套用的方法,
多走几步、检查约束、自己纠错、验证答案,
这套流程一旦学会,不需要很大的脑容量也能跑得很好,是高度可压缩的。
“知识广”是另一回事,
要记住世界上海量的事实、概念、冷门信息,
这种“覆盖面”压不动,只能靠足够大的参数硬装进去。
这两件事,其实能拆开。
过去默认“模型越大越聪明”,是把推理和知识捆在了一起。
但真正吃参数的大头是知识那部分,
推理其实压得很小,小到一个 3B 模型也能装下、还做到顶尖。
所以才有 VibeThinker-3B 这种东西:推理强、知识弱。
它把全部参数预算砸在“方法”上,“数据库”基本不要了。
它在复杂数学、算法编程、科学研究这些方面非常强,
但一到通用知识、日常聊天、调用工具就明显不行,
这是它专门牺牲掉的部分。
对了,它不是从零造的,
底座是阿里的 Qwen2.5-Coder-3B,微博做的是后训练。
📱 回到开头那个“省钱”
它还能往小了塞。
3B 的体量,量化压一下也就一两个 GB,
一台普通笔记本、甚至一部高端手机,都能把它跑起来。
能离线用,地铁里、飞机上、没信号的地方,照样拍题、讲题、刷算法。
数据不出门,题目、错题都在自己设备里转,不往云端传。
还零边际成本,装一次,之后问多少遍都不再花一分钱。
等于把一个能解奥赛题的推理引擎,从机房搬进了你的口袋。
💰 对学校、教培、天天刷题备考的人来说,这才是真省钱。
模型地址:http://t.cn/AXSKfWyx
技术报告:http://t.cn/AXSKfWyM
