AI深度研究要核验

AI 十分钟就能还你一份几千字、带小标题带引用的调研报告，可最该当心的，恰恰是它看着太完整了。

最近不少人都在晒这个：一句话丢过去，它自己上网翻几十上百个网页，几十分钟就给你一份像模像样的报告，这活儿过去一个人得吭哧查上一两天。这个功能叫「深度研究」（Deep Research）。它真正强在哪、什么活适合交给它，以及拿到那份漂亮报告之后该怎么验收才不至于被它坑——下面一条条说。

先说强的地方，它是真强。OpenAI 把这个能力推到了大众面前，做成 ChatGPT 里的深度研究，背后是擅长长链条推理的模型；如今 ChatGPT、Gemini、Perplexity、Claude、Grok 全都有了同类能力，成了标配。各家脾气不太一样：Perplexity 通常出结果很快，几分钟就好，引用呈现也清楚；ChatGPT 钻得最深、报告最长，代价是慢，有时要等上小半个钟头；Gemini 一口气能翻上百个网页，跟谷歌那套搜索咬合得紧。把一个你不熟的领域、一个得东查西查的问题交给它，几十分钟铺出一张像模像样的全景图，这在以前不敢想。

可问题，也就出在这份「像模像样」上。

说白了，这东西被夸得有点过头了。大家晒的都是「我十分钟做完了两天的活」，很少有人晒第二步——把那份报告里的引用，一条一条拿去核。我自己经常用它，正因为用得多，反倒比一般人更不敢信它：你只要认真对过几回就会发现，它列的来源是会出问题的。在一些严肃评测里，它给的引用大约三成并不完全准确——不是凭空乱编那种一眼能抓的错，而是更阴的：把人家原文的意思读拧了、掐头去尾断章取义，甚至它信誓旦旦引的那篇文章里，压根没有它说的那句话。

这还不是哪一家没调好。有人把好几个最顶尖的深度研究系统放一块测，结论是现阶段没有一个称得上「稳稳当当靠得住」：放到严谨场景里，让它写一份正经的文献综述，写不来；让它把一堆资料汇成一张对照表，常常缺这漏那，还往里掺假。

为什么会这样？根子其实特别朴素：这类 AI 干的事，本质是「猜下一个最像样的词」，不是「核实一件事到底是真是假」。它图的是把话说得通顺、说得可信，至于背后那篇文献有没有、是不是这个意思，不在它的本能里。

所以更稳妥的看法，是把它当成一个刚来的实习生。

这实习生手脚极快，什么活都敢接，交上来的东西排版工整、引经据典，第一眼挺唬人。可你才是那个要签字、要担责的人。哪个领导会把实习生连夜赶出来的报告，看都不看就盖章发出去？深度研究给你的，是一份质量很高的初稿，不是一份能直接交差的成品。这两样东西之间，差着一道你必须亲自走的关。

那这道关怎么过？几个动作，记住就够用了。

一是它列的来源，挑要紧的核一核：链接是真的吗？打开看，那篇东西是不是真撑得起它的结论？

二是凡它给的关键数字、关键事实，回原始出处对一遍，尤其你打算拿去用、拿去做决定的那些。

三是工具要是支持，直接圈定它只能在你认的几个可信来源里查，别由着它满世界乱抓。

四是最要紧的一条：拿它铺线索、搭框架、帮你快速摸清一个陌生领域，放开手用；但最后那个判断，自己下。

说到底，那份报告靠不靠谱，最后还是得你自己再走一遍——深度研究帮你把活儿干快了，可没帮你把责任接过去。

#马力的AI知识分享#

发布于北京