微博的 AI 团队做了个很有意思的小模型,自研的VibeThinker-3B,模型登上Hugging Face首页热榜和Hacker News第四。
- VibeThinker-3B 超小模型在数学、编程推理测试中媲美甚至超越 Gemini、Claude、Kimi 这些巨头模型
- VibeThinker 3B 放弃死记硬背,把 3B 的潜力全部用来打造一个极致的“逻辑引擎”,通往智能的路,不止"更大"这一条。(呼应 Andrej Karpathy 的设想:未来或许会有 1B 的模型,里面不存任何事实,只存核心推理原则,配合外部搜索工具就能解决一切)
- 当然这是个偏科的模型,广泛事实知识这些就弱了很多,训练成果也低很多很多仅数万美元,仅为同赛道的数十甚至上百分之一
#微博大模型可真能省钱#
发布于 安徽
