#模型时代# Andrej Karpathy两小时的大语言模型实用指南没想到，Andrej Karpathy在继3个小时的大模型技术原理的讲座之后（跳转：http://t.cn/A618Iuhc），又录制了一个更面向普通用户的讲座，大型语言模型(LLMs)实际应用的全面指南。（巧不巧，我们前天也刚发布了一份“DeepSeek完全实用指南，但是PD

#模型时代# Andrej Karpathy两小时的大语言模型实用指南

没想到，Andrej Karpathy在继3个小时的大模型技术原理的讲座之后（跳转：http://t.cn/A618Iuhc），又录制了一个更面向普通用户的讲座，大型语言模型(LLMs)实际应用的全面指南。（巧不巧，我们前天也刚发布了一份“DeepSeek完全实用指南，但是PDF有117页，不容易发上来，有兴趣可以私信[揣手]）

这次讲座没有任何技术细节，在简单介绍了一下大语言模型的概念之后，就完全聚焦在了AI工具在日常生活和工作中的具体使用方法。从基础交互原理到高级功能应用，从文本到多模态输入输出。可以说，Karpathy以自身使用经验为基础，提供了一份全面且实用的操作手册。

我过了一下内容，发现我有一点心得和Andrej老师是一样的，那就是工作不应该依赖单一模型，就像组建团队，应该有不同类型的同事。他的模型选择是："尽管ChatGPT现在有网络搜索，我仍使用Perplexity，因为他们在这方面有更多经验；如果我想原型化web应用或创建图表，我喜欢Claude的Artifacts功能；如果只是想与模型交谈，ChatGPT的高级语音模式很不错；如果它过于谨慎，可以切换到更开放的Grok。"

嗯，关于这最后一句“更开放的Grok”，如果大家用了Grok3语音模式的话，可以通过“Unhinged”、“Sexy”两个模式深刻感受一下。

我现在主力组合是“ChatGPT、Claude、Grok”，“用ChatGPT的深度研究、Claude的文字编码、Grok的实时搜索，偶尔用Perplexity补充“，极少数处理超长文本再用Gemini。

下边就是讲座概要了：

一、LLM交互的基本原理
1、LLM本质上是一个"压缩文件"
Karpathy首先解释了与LLM交互的底层机制。"当我们使用ChatGPT或类似产品时，我们实际上是在与一个'压缩文件'对话，"他解释道，"这个文件经过了预训练和后训练两个主要阶段。预训练阶段相当于将整个互联网压缩成一个概率性的压缩文件，而后训练则赋予模型助手的人格。"

底层机制中，我们的输入和模型的输出都被切分成称为"token"的小文本块。这些token组成一个一维序列，形成上下文窗口。Karpathy指出："我们与模型的互动实际上是在共同构建一个token窗口。我贡献了序列的前几个token，然后模型继续用它的响应延续这个序列。"

值得注意的是，这些模型通常有知识截止日期，因为预训练阶段成本高昂且进行不频繁。"GPT-4.0这个模型的预训练可能在好几个月前，甚至一年前完成，"Karpathy解释，"这就是为什么这些模型有点过时，它们只具有截至训练时的知识。"

2、不同层级的模型及其区别
LLM生态系统中存在多种选择，用户需要了解不同模型之间的差异。Karpathy强调："理解你正在使用哪个模型非常重要。通常，越大的模型价格越高，但功能也越强大。"

以ChatGPT为例，它提供了从免费到专业的不同价格层级，每个层级可以使用的模型也不同。"在免费层级，你只能访问GPT-4.0 Mini，这是GPT-4.0的较小版本，"Karpathy说，"它的参数更少，创造力不如大模型，知识也不如大模型丰富，可能会产生更多幻觉。"

Karpathy建议根据自己的使用场景选择合适的模型："如果你可以用更便宜的产品实现目标，那就选择它。但如果智能程度不够，而你又是专业使用，可能需要考虑付费使用顶级模型。"

二、思考型模型的工作机制与使用时机
1、强化学习训练出的"思考能力"
最新一代的语言模型引入了"思考能力"。Karpathy解释："在强化学习阶段，模型发现了能够产生良好结果的思考策略。这些策略非常类似于我们解决问题时的内部独白。"
这些思考策略很难通过人工标注直接编码。"只有在强化学习中，模型才能尝试各种方法，找到适合自己知识和能力的思考过程，"Karpathy说，"这一训练阶段相对较新，仅在一两年前开始应用。"

与普通模型相比，思考型模型会花更多时间进行推理，尤其在复杂问题上表现更佳。"思考型模型会花费数分钟进行思考，因为它们会输出大量token。在困难问题上，这可能会带来更高的准确性，"Karpathy指出。

2、何时使用思考型模型
关于使用时机，Karpathy给出了明确建议："对于数学、编程和需要深度推理的问题，思考型模型特别有用。而对于简单的问题，比如旅行建议，使用思考型模型可能没有额外价值。"

他分享了自己的使用习惯："我通常先尝试非思考型模型，因为它们响应很快。当我怀疑回答质量不够好时，我会切换到思考型模型，让它有更多时间考虑问题。"

在一个实例中，Karpathy展示了如何使用思考型模型解决编程问题："当我遇到梯度检查失败的问题时，普通的GPT-4.0无法找出核心问题。但当我使用O1 Pro（一个思考型模型）时，它经过一分钟的思考，成功发现了参数不匹配的问题。"

三、工具使用：为LLM赋能更多功能
1、网络搜索：扩展模型的知识边界
语言模型的一个主要限制是其知识仅限于训练时的数据。为解决这一问题，开发者为LLM添加了工具使用能力，其中最有用的是互联网搜索。

"当我们询问'白莲花第三季何时发布'这类涉及最新信息的问题时，模型可能没有这方面的知识，"Karpathy解释，"借助搜索工具，模型可以发出特殊token，提示应用程序执行搜索，访问网页，将内容添加到上下文窗口中，然后基于这些信息回答问题。"

Karpathy强调了这一功能的实用性："这极大简化了信息获取过程。不必手动搜索和浏览多个网页，你只需提问，模型会完成所有工作，并引用来源，让你可以验证信息准确性。"

2、深度研究：自动化的研究助手
更高级的工具使用是"深度研究"功能，它结合了互联网搜索和思考能力，花费更长时间进行深入研究。

"深度研究本质上是搜索与思考的结合，持续数十分钟，"Karpathy说，"模型会发出多个搜索请求，阅读论文，思考，最后返回带有引用的详细报告。"

Karpathy分享了使用经验："当我想了解CAKG（一种健康成分）时，我使用深度研究功能。模型花了约10分钟研究，返回了一份报告，包括在人类和动物模型中的有效性、作用机制和潜在风险，并提供了参考文献。这成为我进一步研究的良好起点。"

3、Python解释器：解决数学与数据任务
为了解决复杂计算问题，LLM现在可以使用Python解释器。"对于无法在'脑内'计算的问题，如多位数乘法，模型会使用工具，"Karpathy解释，"模型会编写程序，ChatGPT应用程序执行该程序，然后返回结果给模型。"

这项功能在ChatGPT的高级数据分析中得到了扩展。"你可以上传数据，要求生成图表或进行分析，"Karpathy演示道，"模型会编写代码来处理数据并创建可视化。"

但他也警告了潜在问题："模型编写的代码可能包含隐含假设或错误。例如，在一个案例中，ChatGPT错误地报告了OpenAI的2030年估值，与实际代码计算结果不符。所以你需要检查代码，将模型视为初级数据分析师。"

四、与LLM的多模态交互
1、语音交互：从"假语音"到"真语音"
Karpathy解释了两种与LLM进行语音交互的方式："第一种是'假语音'，我们仍通过文本与模型交互，只是使用语音转文本和文本转语音模型进行预处理。第二种是'真语音'，模型直接理解和生成音频。"

在真语音模式下，模型直接处理音频token，无需文本中介。"音频被分解为频谱图，量化为token，模型训练时就学会了理解这些音频片段，"他解释道，"这带来了许多通过假语音无法实现的能力。"

Karpathy展示了高级语音模式的互动："你可以要求模型以特定角色说话，如尤达大师或海盗；可以请求讲故事；甚至要求它快速数数。这些不仅仅是文本转语音的变化，而是模型对音频本身的理解和生成。"

2、图像理解与生成
除了语音，LLM还可以处理图像。"就像处理文本和音频一样，我们可以将图像切分为token，应用相同的建模技术，"Karpathy解释，"最简单的方法是将图像分割成网格，每个小块量化为vocabulary中最接近的patch。"

在实践中，这使模型能够理解上传的图像。Karpathy分享了几个使用案例："我上传了营养标签图片，询问成分的安全性；上传血液检测结果获取解释；甚至上传数学表达式进行求解。这在OCR和信息提取方面非常有用。"

对于图像生成，Karpathy提到了DALL-E等工具："你可以要求模型生成任何风格的任何主题的图像。我主要用它来创建图标、缩略图和其他内容。"

3、视频交互：最新的前沿
视频处理是多模态交互的最新进展。"在手机app上，ChatGPT现在可以看到视频，"Karpathy演示道，"你可以向摄像头展示物品，模型能识别并讨论它们，比如识别书籍、设备或地图。"

对于视频生成，虽然仍处于早期阶段，但发展迅速。"像VO2、Sora这样的模型已经能生成令人印象深刻的视频，"他说，"每个模型都有略微不同的风格和质量，用户可以根据需要选择。"

五、提升用户体验的辅助功能
1、ChatGPT的记忆功能
ChatGPT引入了跨对话记忆功能，Karpathy很欣赏这一设计："记忆功能本质上是一个关于你的知识数据库，总是预置在所有对话开始处，让模型能够访问。随着你继续使用ChatGPT，它会逐渐更好地了解你，让回答更加相关。"

这一功能通过自然交互收集信息，用户也可以手动管理记忆："你可以编辑、添加或删除记忆，管理你的记忆数据库。例如，知道我喜欢90年代和2000年代初的电影，可以帮助它为我提供更好的电影推荐。"

2、自定义指令与GPTs
用户可以通过自定义指令调整模型行为。"你可以告诉ChatGPT你希望它具有什么特质，如何与你交流，"Karpathy解释，"我让它避免过于正式的商务语气，更注重教育性内容，并在使用韩语时默认使用特定礼貌程度。"

更强大的是自定义GPTs功能，允许用户创建针对特定任务的模型。Karpathy展示了几个语言学习相关的例子："我创建了'韩语词汇提取器'，将句子转换为Anki闪卡格式；'韩语详细翻译器'提供逐字解析；'韩语字幕OCR'则从视频截图中提取和翻译字幕。"

这些自定义GPTs实际上是保存的提示词，Karpathy分享了创建技巧："当我创建GPTs时，我不仅提供描述，还给出具体示例。这种few-shot提示比zero-shot提示更准确，就像教人一样，不仅解释任务，还展示如何完成。"

六、LLM生态系统的现状与未来
1、快速发展的碎片化生态系统
Karpathy指出当前LLM领域的特点："有一个快速增长、变化和繁荣的LLM应用生态系统。ChatGPT作为第一个和主流产品，可能功能最丰富，但其他应用也在迅速成长，要么达到功能平等，要么在特定领域超越ChatGPT。"

不同应用有各自的优势："尽管ChatGPT现在有网络搜索，我仍使用Perplexity，因为他们在这方面有更多经验；如果我想原型化web应用或创建图表，我喜欢Claude的Artifacts功能；如果只是想与模型交谈，ChatGPT的高级语音模式很不错；如果它过于谨慎，可以切换到更开放的Grok。"

2、应对碎片化的策略
面对这种碎片化，Karpathy建议用户关注几个关键因素：
"首先，了解你使用的是哪个模型和价格层级。更大的模型有更多世界知识，写作更好，更有创意，但也更贵。"

"其次，考虑是否需要思考型模型。这些模型在数学、代码和推理问题上更准确，但简单任务可能不值得等待。"

"第三，了解不同应用提供的工具。Internet搜索适用于最新信息，Python解释器适用于计算，等等。"

"第四，跟踪多模态功能的发展。不同应用处理音频、图像和视频的方式各不相同，有些是原生支持，有些是附加功能。"

"最后，留意提升用户体验的功能，如记忆、自定义指令和GPTs，它们可以显著改善交互效果。"

七、再给一段总结
Andrej Karpathy的讲座全面展示了LLM技术如何从实验室走入日常生活和工作。从基础交互原理到高级功能应用，从单一模态到多模态输入输出，今天的语言模型正变得越来越强大、灵活和实用。

正如Karpathy所强调的，LLM领域正处于快速发展阶段，不同应用和模型各有优势。用户需要了解这一生态系统的基本组成，选择适合自己需求的模型和功能，并保持对新发展的关注。

未来，我们可以预期更深入的多模态集成，更自然的交互方式，以及更专业的工具使用能力。LLM将继续从通用助手发展为专业领域的强大辅助工具，甚至在某些任务上成为专业人士的重要合作伙伴。随着技术的进步和应用的普及，理解并掌握这些工具的使用方法，将成为数字时代的重要能力。 http://t.cn/A618JonD

发布于韩国