[CL]《VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models》S Xu, S Liu, W Wang, J Min… [Sina Weibo Inc] (2026)
在小参数语言模型领域,复杂逻辑推理一直是一个悬而未决的难题。过去的方法受困于“性能-规模”的线性思维,本质原因是业界普遍认为 3B 以下规模的模型难以承载长程推理所需的知识密度与验证能力,导致小模型多被视为效率妥协的产物。
本文的核心洞见是:把可验证推理重新看作一种高度可压缩的参数密集型核心能力,而非知识广度覆盖。由此,Spectrum-to-Signal 范式的系统性升级——包括课程化微调、多领域强化学习及 Long2Short 效率优化,使 3B 模型在保持紧凑的同时,能够精准提取并放大高纯度的推理信号。
这项工作真正留下的遗产是提出了“参数压缩-覆盖假设”,证明了 3B 规模已足以跨入顶级推理阵列。它为后来者打开的新门是小模型在数学与编程等可验证任务上挑战千亿级模型的可能性,但尚未跨过的门槛是其在知识密集型任务中仍受限于物理参数量的存储上限。
arxiv.org/abs/2606.16140 #机器学习# #人工智能# #论文# #AI创造营#
发布于 北京
