高飞 25-02-28 15:33
微博认证:至顶科技创始人 AI博主

#模型时代# Andrej Karpathy两小时的大语言模型实用指南

没想到,Andrej Karpathy在继3个小时的大模型技术原理的讲座之后(跳转:http://t.cn/A618Iuhc),又录制了一个更面向普通用户的讲座,大型语言模型(LLMs)实际应用的全面指南。(巧不巧,我们前天也刚发布了一份“DeepSeek完全实用指南,但是PDF有117页,不容易发上来,有兴趣可以私信[揣手])

这次讲座没有任何技术细节,在简单介绍了一下大语言模型的概念之后,就完全聚焦在了AI工具在日常生活和工作中的具体使用方法。从基础交互原理到高级功能应用,从文本到多模态输入输出。可以说,Karpathy以自身使用经验为基础,提供了一份全面且实用的操作手册。

我过了一下内容,发现我有一点心得和Andrej老师是一样的,那就是工作不应该依赖单一模型,就像组建团队,应该有不同类型的同事。他的模型选择是:"尽管ChatGPT现在有网络搜索,我仍使用Perplexity,因为他们在这方面有更多经验;如果我想原型化web应用或创建图表,我喜欢Claude的Artifacts功能;如果只是想与模型交谈,ChatGPT的高级语音模式很不错;如果它过于谨慎,可以切换到更开放的Grok。"

嗯,关于这最后一句“更开放的Grok”,如果大家用了Grok3语音模式的话,可以通过“Unhinged”、“Sexy”两个模式深刻感受一下。

我现在主力组合是“ChatGPT、Claude、Grok”,“用ChatGPT的深度研究、Claude的文字编码、Grok的实时搜索,偶尔用Perplexity补充“,极少数处理超长文本再用Gemini。

下边就是讲座概要了:

一、LLM交互的基本原理
1、LLM本质上是一个"压缩文件"
Karpathy首先解释了与LLM交互的底层机制。"当我们使用ChatGPT或类似产品时,我们实际上是在与一个'压缩文件'对话,"他解释道,"这个文件经过了预训练和后训练两个主要阶段。预训练阶段相当于将整个互联网压缩成一个概率性的压缩文件,而后训练则赋予模型助手的人格。"

底层机制中,我们的输入和模型的输出都被切分成称为"token"的小文本块。这些token组成一个一维序列,形成上下文窗口。Karpathy指出:"我们与模型的互动实际上是在共同构建一个token窗口。我贡献了序列的前几个token,然后模型继续用它的响应延续这个序列。"

值得注意的是,这些模型通常有知识截止日期,因为预训练阶段成本高昂且进行不频繁。"GPT-4.0这个模型的预训练可能在好几个月前,甚至一年前完成,"Karpathy解释,"这就是为什么这些模型有点过时,它们只具有截至训练时的知识。"

2、不同层级的模型及其区别
LLM生态系统中存在多种选择,用户需要了解不同模型之间的差异。Karpathy强调:"理解你正在使用哪个模型非常重要。通常,越大的模型价格越高,但功能也越强大。"

以ChatGPT为例,它提供了从免费到专业的不同价格层级,每个层级可以使用的模型也不同。"在免费层级,你只能访问GPT-4.0 Mini,这是GPT-4.0的较小版本,"Karpathy说,"它的参数更少,创造力不如大模型,知识也不如大模型丰富,可能会产生更多幻觉。"

Karpathy建议根据自己的使用场景选择合适的模型:"如果你可以用更便宜的产品实现目标,那就选择它。但如果智能程度不够,而你又是专业使用,可能需要考虑付费使用顶级模型。"

二、思考型模型的工作机制与使用时机
1、强化学习训练出的"思考能力"
最新一代的语言模型引入了"思考能力"。Karpathy解释:"在强化学习阶段,模型发现了能够产生良好结果的思考策略。这些策略非常类似于我们解决问题时的内部独白。"
这些思考策略很难通过人工标注直接编码。"只有在强化学习中,模型才能尝试各种方法,找到适合自己知识和能力的思考过程,"Karpathy说,"这一训练阶段相对较新,仅在一两年前开始应用。"

与普通模型相比,思考型模型会花更多时间进行推理,尤其在复杂问题上表现更佳。"思考型模型会花费数分钟进行思考,因为它们会输出大量token。在困难问题上,这可能会带来更高的准确性,"Karpathy指出。

2、何时使用思考型模型
关于使用时机,Karpathy给出了明确建议:"对于数学、编程和需要深度推理的问题,思考型模型特别有用。而对于简单的问题,比如旅行建议,使用思考型模型可能没有额外价值。"

他分享了自己的使用习惯:"我通常先尝试非思考型模型,因为它们响应很快。当我怀疑回答质量不够好时,我会切换到思考型模型,让它有更多时间考虑问题。"

在一个实例中,Karpathy展示了如何使用思考型模型解决编程问题:"当我遇到梯度检查失败的问题时,普通的GPT-4.0无法找出核心问题。但当我使用O1 Pro(一个思考型模型)时,它经过一分钟的思考,成功发现了参数不匹配的问题。"

三、工具使用:为LLM赋能更多功能
1、网络搜索:扩展模型的知识边界
语言模型的一个主要限制是其知识仅限于训练时的数据。为解决这一问题,开发者为LLM添加了工具使用能力,其中最有用的是互联网搜索。

"当我们询问'白莲花第三季何时发布'这类涉及最新信息的问题时,模型可能没有这方面的知识,"Karpathy解释,"借助搜索工具,模型可以发出特殊token,提示应用程序执行搜索,访问网页,将内容添加到上下文窗口中,然后基于这些信息回答问题。"

Karpathy强调了这一功能的实用性:"这极大简化了信息获取过程。不必手动搜索和浏览多个网页,你只需提问,模型会完成所有工作,并引用来源,让你可以验证信息准确性。"

2、深度研究:自动化的研究助手
更高级的工具使用是"深度研究"功能,它结合了互联网搜索和思考能力,花费更长时间进行深入研究。

"深度研究本质上是搜索与思考的结合,持续数十分钟,"Karpathy说,"模型会发出多个搜索请求,阅读论文,思考,最后返回带有引用的详细报告。"

Karpathy分享了使用经验:"当我想了解CAKG(一种健康成分)时,我使用深度研究功能。模型花了约10分钟研究,返回了一份报告,包括在人类和动物模型中的有效性、作用机制和潜在风险,并提供了参考文献。这成为我进一步研究的良好起点。"

3、Python解释器:解决数学与数据任务
为了解决复杂计算问题,LLM现在可以使用Python解释器。"对于无法在'脑内'计算的问题,如多位数乘法,模型会使用工具,"Karpathy解释,"模型会编写程序,ChatGPT应用程序执行该程序,然后返回结果给模型。"

这项功能在ChatGPT的高级数据分析中得到了扩展。"你可以上传数据,要求生成图表或进行分析,"Karpathy演示道,"模型会编写代码来处理数据并创建可视化。"

但他也警告了潜在问题:"模型编写的代码可能包含隐含假设或错误。例如,在一个案例中,ChatGPT错误地报告了OpenAI的2030年估值,与实际代码计算结果不符。所以你需要检查代码,将模型视为初级数据分析师。"

四、与LLM的多模态交互
1、语音交互:从"假语音"到"真语音"
Karpathy解释了两种与LLM进行语音交互的方式:"第一种是'假语音',我们仍通过文本与模型交互,只是使用语音转文本和文本转语音模型进行预处理。第二种是'真语音',模型直接理解和生成音频。"

在真语音模式下,模型直接处理音频token,无需文本中介。"音频被分解为频谱图,量化为token,模型训练时就学会了理解这些音频片段,"他解释道,"这带来了许多通过假语音无法实现的能力。"

Karpathy展示了高级语音模式的互动:"你可以要求模型以特定角色说话,如尤达大师或海盗;可以请求讲故事;甚至要求它快速数数。这些不仅仅是文本转语音的变化,而是模型对音频本身的理解和生成。"

2、图像理解与生成
除了语音,LLM还可以处理图像。"就像处理文本和音频一样,我们可以将图像切分为token,应用相同的建模技术,"Karpathy解释,"最简单的方法是将图像分割成网格,每个小块量化为vocabulary中最接近的patch。"

在实践中,这使模型能够理解上传的图像。Karpathy分享了几个使用案例:"我上传了营养标签图片,询问成分的安全性;上传血液检测结果获取解释;甚至上传数学表达式进行求解。这在OCR和信息提取方面非常有用。"

对于图像生成,Karpathy提到了DALL-E等工具:"你可以要求模型生成任何风格的任何主题的图像。我主要用它来创建图标、缩略图和其他内容。"

3、视频交互:最新的前沿
视频处理是多模态交互的最新进展。"在手机app上,ChatGPT现在可以看到视频,"Karpathy演示道,"你可以向摄像头展示物品,模型能识别并讨论它们,比如识别书籍、设备或地图。"

对于视频生成,虽然仍处于早期阶段,但发展迅速。"像VO2、Sora这样的模型已经能生成令人印象深刻的视频,"他说,"每个模型都有略微不同的风格和质量,用户可以根据需要选择。"

五、提升用户体验的辅助功能
1、ChatGPT的记忆功能
ChatGPT引入了跨对话记忆功能,Karpathy很欣赏这一设计:"记忆功能本质上是一个关于你的知识数据库,总是预置在所有对话开始处,让模型能够访问。随着你继续使用ChatGPT,它会逐渐更好地了解你,让回答更加相关。"

这一功能通过自然交互收集信息,用户也可以手动管理记忆:"你可以编辑、添加或删除记忆,管理你的记忆数据库。例如,知道我喜欢90年代和2000年代初的电影,可以帮助它为我提供更好的电影推荐。"

2、自定义指令与GPTs
用户可以通过自定义指令调整模型行为。"你可以告诉ChatGPT你希望它具有什么特质,如何与你交流,"Karpathy解释,"我让它避免过于正式的商务语气,更注重教育性内容,并在使用韩语时默认使用特定礼貌程度。"

更强大的是自定义GPTs功能,允许用户创建针对特定任务的模型。Karpathy展示了几个语言学习相关的例子:"我创建了'韩语词汇提取器',将句子转换为Anki闪卡格式;'韩语详细翻译器'提供逐字解析;'韩语字幕OCR'则从视频截图中提取和翻译字幕。"

这些自定义GPTs实际上是保存的提示词,Karpathy分享了创建技巧:"当我创建GPTs时,我不仅提供描述,还给出具体示例。这种few-shot提示比zero-shot提示更准确,就像教人一样,不仅解释任务,还展示如何完成。"

六、LLM生态系统的现状与未来
1、快速发展的碎片化生态系统
Karpathy指出当前LLM领域的特点:"有一个快速增长、变化和繁荣的LLM应用生态系统。ChatGPT作为第一个和主流产品,可能功能最丰富,但其他应用也在迅速成长,要么达到功能平等,要么在特定领域超越ChatGPT。"

不同应用有各自的优势:"尽管ChatGPT现在有网络搜索,我仍使用Perplexity,因为他们在这方面有更多经验;如果我想原型化web应用或创建图表,我喜欢Claude的Artifacts功能;如果只是想与模型交谈,ChatGPT的高级语音模式很不错;如果它过于谨慎,可以切换到更开放的Grok。"

2、应对碎片化的策略
面对这种碎片化,Karpathy建议用户关注几个关键因素:
"首先,了解你使用的是哪个模型和价格层级。更大的模型有更多世界知识,写作更好,更有创意,但也更贵。"

"其次,考虑是否需要思考型模型。这些模型在数学、代码和推理问题上更准确,但简单任务可能不值得等待。"

"第三,了解不同应用提供的工具。Internet搜索适用于最新信息,Python解释器适用于计算,等等。"

"第四,跟踪多模态功能的发展。不同应用处理音频、图像和视频的方式各不相同,有些是原生支持,有些是附加功能。"

"最后,留意提升用户体验的功能,如记忆、自定义指令和GPTs,它们可以显著改善交互效果。"

七、再给一段总结
Andrej Karpathy的讲座全面展示了LLM技术如何从实验室走入日常生活和工作。从基础交互原理到高级功能应用,从单一模态到多模态输入输出,今天的语言模型正变得越来越强大、灵活和实用。

正如Karpathy所强调的,LLM领域正处于快速发展阶段,不同应用和模型各有优势。用户需要了解这一生态系统的基本组成,选择适合自己需求的模型和功能,并保持对新发展的关注。

未来,我们可以预期更深入的多模态集成,更自然的交互方式,以及更专业的工具使用能力。LLM将继续从通用助手发展为专业领域的强大辅助工具,甚至在某些任务上成为专业人士的重要合作伙伴。随着技术的进步和应用的普及,理解并掌握这些工具的使用方法,将成为数字时代的重要能力。 http://t.cn/A618JonD

发布于 韩国