AI 十分钟就能还你一份几千字、带小标题带引用的调研报告,可最该当心的,恰恰是它看着太完整了。
最近不少人都在晒这个:一句话丢过去,它自己上网翻几十上百个网页,几十分钟就给你一份像模像样的报告,这活儿过去一个人得吭哧查上一两天。这个功能叫「深度研究」(Deep Research)。它真正强在哪、什么活适合交给它,以及拿到那份漂亮报告之后该怎么验收才不至于被它坑——下面一条条说。
先说强的地方,它是真强。OpenAI 把这个能力推到了大众面前,做成 ChatGPT 里的深度研究,背后是擅长长链条推理的模型;如今 ChatGPT、Gemini、Perplexity、Claude、Grok 全都有了同类能力,成了标配。各家脾气不太一样:Perplexity 通常出结果很快,几分钟就好,引用呈现也清楚;ChatGPT 钻得最深、报告最长,代价是慢,有时要等上小半个钟头;Gemini 一口气能翻上百个网页,跟谷歌那套搜索咬合得紧。把一个你不熟的领域、一个得东查西查的问题交给它,几十分钟铺出一张像模像样的全景图,这在以前不敢想。
可问题,也就出在这份「像模像样」上。
说白了,这东西被夸得有点过头了。大家晒的都是「我十分钟做完了两天的活」,很少有人晒第二步——把那份报告里的引用,一条一条拿去核。我自己经常用它,正因为用得多,反倒比一般人更不敢信它:你只要认真对过几回就会发现,它列的来源是会出问题的。在一些严肃评测里,它给的引用大约三成并不完全准确——不是凭空乱编那种一眼能抓的错,而是更阴的:把人家原文的意思读拧了、掐头去尾断章取义,甚至它信誓旦旦引的那篇文章里,压根没有它说的那句话。
这还不是哪一家没调好。有人把好几个最顶尖的深度研究系统放一块测,结论是现阶段没有一个称得上「稳稳当当靠得住」:放到严谨场景里,让它写一份正经的文献综述,写不来;让它把一堆资料汇成一张对照表,常常缺这漏那,还往里掺假。
为什么会这样?根子其实特别朴素:这类 AI 干的事,本质是「猜下一个最像样的词」,不是「核实一件事到底是真是假」。它图的是把话说得通顺、说得可信,至于背后那篇文献有没有、是不是这个意思,不在它的本能里。
所以更稳妥的看法,是把它当成一个刚来的实习生。
这实习生手脚极快,什么活都敢接,交上来的东西排版工整、引经据典,第一眼挺唬人。可你才是那个要签字、要担责的人。哪个领导会把实习生连夜赶出来的报告,看都不看就盖章发出去?深度研究给你的,是一份质量很高的初稿,不是一份能直接交差的成品。这两样东西之间,差着一道你必须亲自走的关。
那这道关怎么过?几个动作,记住就够用了。
一是它列的来源,挑要紧的核一核:链接是真的吗?打开看,那篇东西是不是真撑得起它的结论?
二是凡它给的关键数字、关键事实,回原始出处对一遍,尤其你打算拿去用、拿去做决定的那些。
三是工具要是支持,直接圈定它只能在你认的几个可信来源里查,别由着它满世界乱抓。
四是最要紧的一条:拿它铺线索、搭框架、帮你快速摸清一个陌生领域,放开手用;但最后那个判断,自己下。
说到底,那份报告靠不靠谱,最后还是得你自己再走一遍——深度研究帮你把活儿干快了,可没帮你把责任接过去。
#马力的AI知识分享#
发布于 北京
