#微博大模型可真能省钱# 刷到微博自研的 VibeThinker-3B 上了 Hugging Face 首页热榜和 Hacker News 第四,第一反应是:微博居然还藏着这手??
更离谱的是参数才 30 亿,整个训练成本就数万美元 —— 是同赛道的几十甚至上百分之一。别人在那疯狂堆参数烧钱烧算力,烧得投资人肉疼,结果它用零头成本就跑出了能上国际热榜的效果。
合着搞大模型不一定非要往死里砸钱是吧?路不止 "更大" 这一条,这话听着还真有点东西。突然觉得之前那些动不动就千亿参数万亿算力的宣传,多少有点被 CPU 了。
发布于 江西
