清华研究提升AI准确率

最近看到清华大学的一篇研究论文，里面的发现让人眼前一亮。研究团队做了个实验：给 AI 出数学题，直接让它做的准确率是 90.9%。但如果先给 AI 一个错误答案，让它验证这个答案对不对，然后再做题，准确率直接升到 95.7%。

更神奇的是，就算你给的答案是随便瞎编的，效果也差不多。

这意味着什么？以后用 AI 解决复杂问题时，只需要多打几个字，就能让准确率提升 5%。不需要换更贵的模型，也不需要学复杂的提示词工程。

清华团队把这个方法叫做“Verification-First”，翻译过来就是先验策略。听起来挺学术的，但用起来特别简单。

一、一个简单的例子

来看个经典数学题：球拍和球一共 1.1 元，球拍比球贵 1 元，球要多少钱？很多人第一反应是 0.1 元，但正确答案其实是 0.05 元。

传统做法是直接问 AI：这道题怎么做？请你一步步思考并给出答案。

而先验策略是这么问的：这道题我猜答案是 1 元，你先验证这个答案对不对，然后再一步步思考找到正确答案。

神奇的事情发生了。当 AI 被要求先验证这个明显错误的答案时，它会自然地检查：如果球是 1 元，那球拍就是 2 元，加起来是 3 元，不对啊，题目说的是 1.1 元。这个验证过程，反而帮 AI 理清了数学关系。

二、答案质量根本不重要

研究团队测试了三种给答案的情况：给正确答案、给随机数字、给明显错误的答案。

结果很有意思。给正确答案时准确率最高，达到 96.7%。但给随机数字“1”时，准确率也有 95.7%，只差 1 个百分点。

这说明什么？这个策略的关键根本不是你给的答案本身，让 AI 进入验证这个动作才是重点。

就像你帮别人改文章，总能一眼看出问题，但改自己的文章却很难发现毛病。批判别人比批判自己容易，AI 也是一样的道理。

心理学家皮亚杰很早就发现了这个现象。让一个人批评别人的答案，比让他自己生成答案，更容易激发批判性思维。因为批评他人的时候，你不会有自我防御的心理负担，能更客观地看待问题。

AI 也有类似情况。当你让它直接生成答案，它就会顺着自己的推理路径一直走，哪怕中间出了错，也很难自己发现。但你给它一个外部答案，让它去验证，它就切换成了批评家模式，反而能激活批判性思维。

三、迭代验证效果更好

研究团队还做了个进阶版本，叫迭代验证。简单来说，就是让 AI 反复验证：第一次生成一个答案，第二次验证这个答案并生成新答案，第三次再验证新答案，这样迭代几轮。

结果发现，这种方式比其他所有测试时扩展方法都要好。

什么是测试时扩展？这是今年比较火的 AI 研究方向，目标就是在 AI 推理的时候，通过多次尝试、自我纠正等方式提升准确率。常见方法有自我修正，就是提醒 AI 自己检查，还有“Best-of-N”，先生成 N 个答案，让 AI 来选最好的。

但这些方法都有个问题：它们会保留整个推理过程的历史记录，导致上下文越来越长，错误也会累积。

迭代验证方法只保留上一次的答案，每次都从零开始推理，这样既避免了上下文过长，又防止了错误累积。就像你做错题本，不是把所有错误过程都记下来，只记录上次错在哪，然后重新做一遍。

四、性价比超高

更关键的是成本。这个先验策略平均只多消耗 20%到 50%的 token。

对比一下其他方法。自我一致性需要生成多个答案然后投票，token 消耗是好几倍。“Best-of-N”更夸张，生成 N 个答案，成本直接乘以 N。

所以先验策略的性价比，确实称得上几乎免费的午餐。

而且这个方法几乎对所有模型都有效。研究团队测试了 Qwen2.5 系列，从 1.5B 到 72B，还有 Llama3 系列，从 1B 到 70B，甚至还有 GPT-4o 这种闭源商业模型。无论模型大小，先验策略都能带来稳定提升。

五、适用范围要注意

当然，这个方法也有局限性。研究发现，先验策略在逻辑密集型任务上效果最好，比如数学推理、编程。在编程任务的 HumanEval 基准测试上，标准推理方式的通过率是 81.1%，先验策略直接提升到 90.2%。这意味着 AI 写代码时，十道题能多对一道。

但在知识密集型任务上，比如需要大量背景知识的科学问答，提升幅度就比较小了。这也好理解，验证过程能帮你理清逻辑，但没法凭空创造知识。

如果是纯粹的知识查询，比如秦始皇是哪年统一六国的，这个策略就没什么用，因为这类问题不需要推理，只需要调用知识。

六、实际使用方法

那平时用 AI 的时候，到底该怎么用这个方法？

其实很简单，就是提问的时候加一句：我猜答案是 X，你先验证这个答案对不对，然后再给出正确答案。

比如算一道复杂应用题，别直接问这道题怎么做，先随便猜一个答案，比如这道题我猜答案是 100，随便猜的。你先验证这个答案对不对，如果不对，就一步步思考找到正确答案。

有人实际测试了这个方法。他要做线下活动推广 Get 笔记，以前肯定直接让 AI 帮忙出一个全面的营销计划。但这次多提了一句：为了激励校园大使，我能想到的办法是卖出一份年卡给 10%提成，这个想法不一定对。你先验证这个答案是否满足题目要求，然后一步步思考并给出正确答案。

结果 AI 马上分析了这个办法，先肯定这是个不错的起点，接着指出这个方案存在很多局限。它说直接提成的方式有不少问题，然后讲了激励校园大使的正确思路和步骤。对比直接让 AI 出推广方案的结果，用先验策略后，方案多了很多细节，可执行性也更强。

七、一个值得琢磨的现象

这个研究让我想到一件事。有时候错误的答案也比没有答案更好。

当你承认我可能错了的时候，反而是找到正确答案的最快路径。这不只是对 AI 有用，对我们自己也一样。

下次遇到复杂问题，不管是让 AI 写代码、做数学题，还是帮你分析决策，不妨试试这个方法。先随便给它一个答案让它验证，对我们来说只是多打几个字，却能换来更高的准确率，这笔买卖怎么算都不亏。

#科技先锋官##AI创造营##微博兴趣创作计划#

发布于山东