默庵·超级个体 25-12-12 14:07
微博认证:微博新知博主 科技博主 头条文章作者 微博原创视频博主

最近看到清华大学的一篇研究论文,里面的发现让人眼前一亮。研究团队做了个实验:给 AI 出数学题,直接让它做的准确率是 90.9%。但如果先给 AI 一个错误答案,让它验证这个答案对不对,然后再做题,准确率直接升到 95.7%。

更神奇的是,就算你给的答案是随便瞎编的,效果也差不多。

这意味着什么?以后用 AI 解决复杂问题时,只需要多打几个字,就能让准确率提升 5%。不需要换更贵的模型,也不需要学复杂的提示词工程。

清华团队把这个方法叫做“Verification-First”,翻译过来就是先验策略。听起来挺学术的,但用起来特别简单。

一、一个简单的例子

来看个经典数学题:球拍和球一共 1.1 元,球拍比球贵 1 元,球要多少钱?很多人第一反应是 0.1 元,但正确答案其实是 0.05 元。

传统做法是直接问 AI:这道题怎么做?请你一步步思考并给出答案。

而先验策略是这么问的:这道题我猜答案是 1 元,你先验证这个答案对不对,然后再一步步思考找到正确答案。

神奇的事情发生了。当 AI 被要求先验证这个明显错误的答案时,它会自然地检查:如果球是 1 元,那球拍就是 2 元,加起来是 3 元,不对啊,题目说的是 1.1 元。这个验证过程,反而帮 AI 理清了数学关系。

二、答案质量根本不重要

研究团队测试了三种给答案的情况:给正确答案、给随机数字、给明显错误的答案。

结果很有意思。给正确答案时准确率最高,达到 96.7%。但给随机数字“1”时,准确率也有 95.7%,只差 1 个百分点。

这说明什么?这个策略的关键根本不是你给的答案本身,让 AI 进入验证这个动作才是重点。

就像你帮别人改文章,总能一眼看出问题,但改自己的文章却很难发现毛病。批判别人比批判自己容易,AI 也是一样的道理。

心理学家皮亚杰很早就发现了这个现象。让一个人批评别人的答案,比让他自己生成答案,更容易激发批判性思维。因为批评他人的时候,你不会有自我防御的心理负担,能更客观地看待问题。

AI 也有类似情况。当你让它直接生成答案,它就会顺着自己的推理路径一直走,哪怕中间出了错,也很难自己发现。但你给它一个外部答案,让它去验证,它就切换成了批评家模式,反而能激活批判性思维。

三、迭代验证效果更好

研究团队还做了个进阶版本,叫迭代验证。简单来说,就是让 AI 反复验证:第一次生成一个答案,第二次验证这个答案并生成新答案,第三次再验证新答案,这样迭代几轮。

结果发现,这种方式比其他所有测试时扩展方法都要好。

什么是测试时扩展?这是今年比较火的 AI 研究方向,目标就是在 AI 推理的时候,通过多次尝试、自我纠正等方式提升准确率。常见方法有自我修正,就是提醒 AI 自己检查,还有“Best-of-N”,先生成 N 个答案,让 AI 来选最好的。

但这些方法都有个问题:它们会保留整个推理过程的历史记录,导致上下文越来越长,错误也会累积。

迭代验证方法只保留上一次的答案,每次都从零开始推理,这样既避免了上下文过长,又防止了错误累积。就像你做错题本,不是把所有错误过程都记下来,只记录上次错在哪,然后重新做一遍。

四、性价比超高

更关键的是成本。这个先验策略平均只多消耗 20%到 50%的 token。

对比一下其他方法。自我一致性需要生成多个答案然后投票,token 消耗是好几倍。“Best-of-N”更夸张,生成 N 个答案,成本直接乘以 N。

所以先验策略的性价比,确实称得上几乎免费的午餐。

而且这个方法几乎对所有模型都有效。研究团队测试了 Qwen2.5 系列,从 1.5B 到 72B,还有 Llama3 系列,从 1B 到 70B,甚至还有 GPT-4o 这种闭源商业模型。无论模型大小,先验策略都能带来稳定提升。

五、适用范围要注意

当然,这个方法也有局限性。研究发现,先验策略在逻辑密集型任务上效果最好,比如数学推理、编程。在编程任务的 HumanEval 基准测试上,标准推理方式的通过率是 81.1%,先验策略直接提升到 90.2%。这意味着 AI 写代码时,十道题能多对一道。

但在知识密集型任务上,比如需要大量背景知识的科学问答,提升幅度就比较小了。这也好理解,验证过程能帮你理清逻辑,但没法凭空创造知识。

如果是纯粹的知识查询,比如秦始皇是哪年统一六国的,这个策略就没什么用,因为这类问题不需要推理,只需要调用知识。

六、实际使用方法

那平时用 AI 的时候,到底该怎么用这个方法?

其实很简单,就是提问的时候加一句:我猜答案是 X,你先验证这个答案对不对,然后再给出正确答案。

比如算一道复杂应用题,别直接问这道题怎么做,先随便猜一个答案,比如这道题我猜答案是 100,随便猜的。你先验证这个答案对不对,如果不对,就一步步思考找到正确答案。

有人实际测试了这个方法。他要做线下活动推广 Get 笔记,以前肯定直接让 AI 帮忙出一个全面的营销计划。但这次多提了一句:为了激励校园大使,我能想到的办法是卖出一份年卡给 10%提成,这个想法不一定对。你先验证这个答案是否满足题目要求,然后一步步思考并给出正确答案。

结果 AI 马上分析了这个办法,先肯定这是个不错的起点,接着指出这个方案存在很多局限。它说直接提成的方式有不少问题,然后讲了激励校园大使的正确思路和步骤。对比直接让 AI 出推广方案的结果,用先验策略后,方案多了很多细节,可执行性也更强。

七、一个值得琢磨的现象

这个研究让我想到一件事。有时候错误的答案也比没有答案更好。

当你承认我可能错了的时候,反而是找到正确答案的最快路径。这不只是对 AI 有用,对我们自己也一样。

下次遇到复杂问题,不管是让 AI 写代码、做数学题,还是帮你分析决策,不妨试试这个方法。先随便给它一个答案让它验证,对我们来说只是多打几个字,却能换来更高的准确率,这笔买卖怎么算都不亏。

#科技先锋官##AI创造营##微博兴趣创作计划#

发布于 山东