VibeThinker-3B为何能以小博大?关键在“硬推理可压缩”假设!团队砍掉通用知识填充,用定向强化死磕推理链路。这种“精准灌溉”式训练,比暴力堆数据效率高一个数量级。附技术架构图,开源地址见评论区↓ http://t.cn/AXSKckrM
发布于 安徽
VibeThinker-3B为何能以小博大?关键在“硬推理可压缩”假设!团队砍掉通用知识填充,用定向强化死磕推理链路。这种“精准灌溉”式训练,比暴力堆数据效率高一个数量级。附技术架构图,开源地址见评论区↓ http://t.cn/AXSKckrM