#微博大模型可真能省钱#当整个AI行业都在烧钱堆参数时,微博用30亿参数证明了一件事:通往智能的路,不止“更大”这一条。
VibeThinker-3B,一个只有30亿参数的“偏科生”,最近在数学、编程等推理任务上,性能直接比肩GPT-5、Claude Opus 4.5这些千亿级巨头。更让人惊讶的是成本——初代1.5B版本后训练只花了7800美元,是DeepSeek-R1的1/37。有网友在RTX 2070 Super上,拿它解出了Mathematica都搞不定的难题。
这套“小参数大智慧”的逻辑其实很清晰。微博团队提出了“参数压缩覆盖假设”:像数学解题、编程这类可验证推理能力可以被高度压缩进小模型;而海量事实性知识才依赖大参数。再加上独创的SSP训练范式,用算法创新替代算力堆砌。
所以问题来了:日常使用中,你是更需要一个能帮你解难题的“推理专才”,还是一个什么都懂一点的“通才”? 至少VibeThinker的出现告诉我们:未来AI不一定都得是巨无霸,“小而强”的专家同样不可或缺。http://t.cn/AXSoc35Z
发布于 天津
