i陆三金 25-03-31 18:53
微博认证:AI博主

谷歌的产品经理 Aarush Selvan 和软件工程师 Mukund Sridhar 关于 Gemini Deep Research 的一个分享:

🌈 Gemini Deep Research 简介:

- 它扮演“个人研究助手”的角色,旨在处理复杂、多方面的研究和学习类查询。

- 它超越了标准聊天机器人的回应,能主动浏览网页以收集信息,并将其整合成一份全面的报告。

🌈 开发动机(为什么构建它):

- 目标:帮助用户在复杂主题上“快速深入了解”(Get smart fast)。

- 问题:对于复杂问题,标准的 LLM(大语言模型)通常只提供一个“蓝图”(告诉你如何找到答案),而不是直接给出综合性的答案。

- 解决方案构想:移除实时聊天机器人的典型计算/延迟限制,允许 AI 花费更长时间(大约最多 5 分钟),进行广泛的网页浏览,并提供更深入的回答。

🌈 工作原理(用户体验):

**查询输入:**用户提出复杂的研究请求(例如,关于小型核反应堆的细节,或某项体育奖学金的要求)。

**研究计划:**Gemini 首先生成一个多步骤的研究计划,列出它将执行的子任务。用户可以在开始研究前预览甚至编辑这个计划。

**异步研究:**助手随后开始浏览网页(会显示进度,如“正在研究 46 个网站...”),从多个来源收集信息。这个过程需要几分钟。

**全面报告:**它最终交付一份长篇报告(可能超过 3000 字),综合了研究发现。

**报告固定与后续互动:**报告会以一个固定的“artifact”形式呈现在聊天界面中(灵感来自 Anthropic)。这使得用户可以轻松地参考报告,同时提出后续问题、请求摘要或更改报告风格,而无需无休止地滚动。

**引用来源:**报告中使用的来源会被清晰地列出,以保证透明度和用户信任。

🌈 遇到的挑战:

- 产品挑战:

在一个通常是同步交互的聊天产品中设计异步功能。

管理用户预期(何时使用此功能、需要多长时间)。

有效地处理和呈现非常长的输出内容。

- 工程挑战:

**长时间运行任务:**需要构建稳健的系统,能处理持续数分钟的任务,并能应对子步骤的间歇性失败(例如,某个网站加载失败)。完成后需要通知用户。

**多步骤规划:**模型需要根据研究过程中发现的信息来调整计划,这涉及到在探索范围和推理预算之间取得平衡。

**碎片化的网络:**处理分散在众多网站上的、包含噪声的、结构不一致的信息,包括访问问题和信息不完整。需要强大的浏览和信息提取能力。

**上下文管理:**在模型的上下文窗口内有效管理从大量网站和多轮对话中收集到的大量信息,可能需要使用 RAG(检索增强生成)等技术。

**实体解析:**识别不同的网页是否指向同一个实体(例如,同一个潜水店在其官网和评论网站上的提及)。

🌈 未来方向(下一步是什么):

**当前状态:**可类比为“麦肯锡分析师”(主要基于开放网络进行信息检索,仅处理文本输入/输出)。

未来愿景:

**提升专业性:**朝着“博士后科学家”或“合伙人”级别的洞察力发展,能够在特定领域(法律、金融、科学等)进行假设生成和更深入的分析。

**个性化:**根据用户的具体需求和背景调整研究过程和输出格式(例如,为产品经理和银行家定制不同风格的报告)。

**跨领域能力:**将网页研究与其他能力(如编码、数据科学——例如基于研究进行统计分析或金融建模、甚至视频生成)结合起来。 http://t.cn/A6rA5nQ0

发布于 北京