如何使用
LLM

超越内部原理——一份关于如何在日常工作中实际使用大语言模型的实用指南。基于 Andrej Karpathy 的 LLM 深度解析后续内容。

涵盖工具: 14+
使用场景: 12
模型: 8+
来源: 3h

配合第一部分：LLM 如何工作阅读。所有内容和示例均可追溯至 Karpathy 2025 年的视频。

问：使用前我应该了解什么？

第 1 章 · 基础

你在与一个
ZIP 文件对话

Karpathy 的心智模型：ChatGPT 是一个"单标签页 ZIP 文件"——互联网的高度压缩快照。它阅读了截止训练数据之前几乎所有的网页、书籍和文档，大约是 6-12 个月前的内容。返回的是该数据的概率性回忆。

上下文窗口是它的工作记忆——它当前能看到的一块有限的 Token 磁带。其中的内容可以直接访问。窗口之外的内容在本次对话中不存在。除非你启用记忆功能，否则会话之间没有持久记忆。

默认情况下，模型没有实时网络连接。模型产生的是你提示词的最统计可能的延续——不是查找，不是搜索，不是保证。

自我介绍 "你好，我是 ChatGPT。我是一个单标签页 ZIP 文件。我的知识来自大约 6 个月前阅读互联网。我只知道本次对话中的内容。我生成的每一个词都是概率性采样——请据此对待。"

上下文窗口 · 实时工作记忆

系统

你是一个有帮助的助手。

用户

一杯美式咖啡含多少咖啡因？

助手

每份浓缩约 63mg...

用户

双份浓缩呢？

▌

以上所有内容对模型可见。一旦窗口填满，旧的上下文就会从边缘滑落并消失。

过时知识提醒 对于咖啡因含量这类永恒不变的事实，模型的权重是可靠的。但对于上个月的新闻——则不然。在信任答案之前，请了解两者的区别。

第 2 章 · 生态

模型与
层级

ChatGPT 是"元老级选手"——功能最多、最受欢迎、最完善。但自 2022 年以来，生态系统已经爆发式增长。根据任务选择合适的工具。

ChatGPT

OpenAI

元老级。功能最全：网络搜索、深度研究、代码执行、高级语音、图像生成、记忆。Karpathy 全程的主要演示工具。

首选功能最多

Claude

Anthropic

在编程和文档分析方面表现卓越。为 Cursor（3.7 Sonnet）提供底层支持。在细致推理任务上经常超越对手。

编程文档

Gemini

Google

Google 的参赛选手。Gemini 2.0 Pro 实验版可用。与 Google Workspace 深度集成。强大的多模态能力。

多模态

Perplexity

Perplexity AI

搜索优先的 LLM。始终检索并引用来源。Karpathy 演示了其深度研究功能用于雷帕霉素研究示例。

搜索优先引用

Le Chat

Mistral

法国初创公司的替代方案。Mistral 的消费者聊天界面。擅长欧洲语言和编程。

替代方案

DeepSeek

中国 AI 实验室。在编程和推理方面出人意料地强大。与美国实验室不同的训练方法——值得对标测试。

替代方案编程

模型家族

OpenAI

GPT-4o 快速 · 智能 · 默认

o1 / o3 / o3-mini 思维模型

o1 Pro $200/月 · 深度推理

Anthropic

Claude 3.7 Sonnet 编程 + 推理

Claude 3.5 Sonnet 快速 + 能力强

Claude Haiku 轻量级

Google

Gemini 2.0 Pro 多模态

Gemini Flash 快速 · 通常免费

其他

DeepSeek 中国 · 擅长编程

Mistral 法国 · Le Chat

去哪里对比 LM Arena (lmarena.ai)——前身为 Chatbot Arena——维护着一个按人类偏好投票排名的实时排行榜。这是"哪个模型现在实际上更好"最可靠的信号。

第 3 章 · 推理

思维
模型

OpenAI 的 o1、o1 Pro、o3 和 o3-mini 是不同的品种——所有以"o"开头的模型名称都是思维模型。在返回答案之前，它们会运行一个扩展的内心独白：探索方法、回溯、尝试替代方案。

这源于强化学习：模型发现审慎策略能在困难问题上带来更好的结果。它尝试不同的想法、回溯、检查自己的推理——就像你在解决问题时的内心独白一样。

Karpathy 指出，Claude 3.7 Sonnet（非思维模型）解决了一个 o1 Pro 无法解决的编程难题。模型选择并不总是显而易见的——正确的工具取决于具体任务。

何时使用思维模型 困难的数学题、复杂的多步骤编程、形式推理、逻辑谜题。简单任务请跳过它们——它们更慢、更贵，当没有困难的问题需要推理时，审慎帮助不大。

o1 Pro · 扩展思维就绪

"证明两个奇数之和总是偶数。"

点击运行查看扩展思维展开过程

第 4 章 · 信息

何时
搜索

默认情况下，模型仅基于其权重运行——没有互联网，没有实时数据。启用网络搜索意味着它先检索页面，然后综合答案。这会增加延迟，但解锁了实时信息。

关键问题：模型的过时回忆够用吗？对于有充分文档记录的、永恒不变的知识——够用。对于任何时间敏感的、最近的或小众的内容——启用搜索或使用 Perplexity。

✕
跳过搜索："一杯美式咖啡含多少咖啡因？"——有充分文档记录、永恒不变、模型知道
✕
跳过搜索："解释瑞利散射"——教科书级物理，无需搜索
✓
使用搜索："白莲花度假村第三季什么时候播出？"——时间敏感，上映日期可能变化
✓
使用搜索："现在去越南旅行安全吗？"——当前情况可能与训练数据不同
✓
使用搜索："最近 USAID 削减是怎么回事？"——近期新闻，不在训练数据中
✓
使用搜索："[某人]用什么牙膏？"——小众、可能是最近的、冷门知识

是否应该启用网络搜索？

这条信息是否时间敏感或可能已过时？

否 — 永恒不变

是否小众或在网络上文档不充分？

否

跳过搜索 — 权重足够

是

启用搜索

是 — 近期 / 变化中

启用搜索

Perplexity 对比 ChatGPT 搜索 Perplexity 始终搜索——它天生就是搜索优先的设计。ChatGPT 的搜索是按消息选择启用的。对于研究密集型工作流，Perplexity 的默认开启方式通常省去了决策开销。

第 5 章 · 综合

深度
研究

深度研究 = 扩展思维 + 网络搜索，运行 5-15 分钟。模型并行搜索数十个来源，跨来源推理，并生成结构化报告——人类研究员需要数小时才能完成的工作。

Karpathy 的演示：研究雷帕霉素与长寿。模型查看了 27+ 个来源，思考了 5 分钟，生成了一份涵盖作用机制（mTOR 抑制）、线虫/小鼠/人体试验数据、安全性问题和正在进行的研究的报告。

ChatGPT 深度研究（需 $200/月 Pro）和 Perplexity 的研究模式都提供此功能。对于文献综述、竞争分析和尽职调查——它显著降低了研究门槛。

最佳用途 科学文献调研、竞争格局分析、决策尽职调查、医疗/法律研究（需验证）。对于简单的事实性问题不值得使用。

深度研究流程

1

查询规划

将问题分解为子主题和并行搜索查询

2

并行网络搜索

同时跨子主题获取 20-30 个来源

3

扩展思维

跨来源推理，解决冲突，识别空白

4

报告生成

带引用、机制、注意事项的结构化报告

第 6 章 · 阅读

文档与
书籍

附加文档可以将模型变成阅读助手。上传 PDF、粘贴章节、分享电子表格——然后提问、请求摘要，或从内容中生成概念图。

Karpathy 的示例：用 Claude 阅读《国富论》。"我附上了第 1 卷第 3 章——请创建这一章的概念图。"Claude 用 Mermaid 代码响应，这是一种图表标记语言，可以渲染为连接关键概念的图形。

对于数据，模型可以编写并运行 Python 来生成图表。但要把它当作一个非常初级的数据分析师——编写代码方面非常出色，但它在 Karpathy 发现的一个图表中幻觉出了一个"1.7 万亿"的数字。始终审查数字，而不仅仅是图表的形状。

关键工作流 附加文档 → 请求摘要 → 通过问答深入各章节 → 请求概念图（Mermaid）→ 对照来源验证任何具体数字。

国富论 · 第 I 卷，第 3 章 Claude 3.7 Sonnet

请创建这一章的概念图

mermaid

graph TD
  A[劳动分工] -->|受限于| B[市场范围]
  B --> C[本地市场]
  B --> D[贸易网络]
  D --> E[水路运输]
  D --> F[陆路运输]
  E -->|成本更低| G[沿海城市]
  G -->|率先发展| H[专业化]

渲染后的图表展示了斯密如何论证市场规模制约专业化——更大的市场使更深入的劳动分工成为可能。

节点 D 中有什么隐含假设？

节点 D 假设贸易网络在法律和政治上是可及的——斯密的隐含前提是功能性的交换基础设施已经存在。他指出了这个前提条件但没有为之论证。

第 7 章 · 数据分析

代码
执行

ChatGPT 的高级数据分析将模型连接到实时 Python 运行时。你用自然语言描述任务——它编写代码、运行并展示结果。无需复制粘贴，无需本地配置。

这是语言与计算的集成。算术、统计、数据清洗、图表生成——Python 能做的都可以。上传一个 CSV 请求趋势分析；几秒钟内得到 matplotlib 图表。

Karpathy 的警告：他发现模型生成的图表中出现了幻觉的"1.7 万亿"而不是正确的值。代码运行正常；数字是错的。把它当作一个能力很强但不可靠的初级员工——验证数字，而不仅仅是输出的形状。

原则当你需要计算、转换或可视化时使用代码执行。始终检查：生成的代码是否匹配你的要求？输出对照你的源数据看起来是否合理？

高级数据分析 · Python 运行时

"绘制 1990-2023 年 G7 国家 GDP 增长"

第 8 章 · 开发

智能体
编程

超越聊天，一类新工具将 LLM 直接集成到你的代码编辑器中。Cursor 和 Windsurf 在底层运行 Claude 或 GPT，在你的整个代码库中自主操作——读取文件、编写代码、运行命令和迭代。

Cursor 的 Composer（⌘I）是一个自主智能体循环：描述一个任务，它会规划、编写文件、运行 Shell 命令、读取错误并循环——在任何破坏性操作前请求你的确认。Karpathy 在几分钟内从零构建了一个 React 应用。

Karpathy 设置中底层使用的模型：Claude 3.7 Sonnet。关键洞察是，当你足够了解模型以引导和纠正它，而不仅仅是提示和期望时，这些工具才最强大。

Cursor 键盘快捷键 ⌘K 行内编辑 · ⌘L 聊天侧栏 · ⌘I Composer（智能体模式）

Composer 智能体循环

1

规划

将任务分解为文件变更和 Shell 命令

↓

2

生成

在代码库中编写或编辑源文件

↓

3

执行

运行 Shell 命令——先征求你的批准

↓

4

观察

读取输出，捕获错误，更新计划

↺ 循环直到完成或卡住

第 9 章 · 多模态

语音与
音频

Karpathy 大约一半的查询通过语音完成，使用 Super Whisper——他在 Super Whisper、WhisperFlow 和 MacWhisper 中的首选。按下热键，说话，再按一次——查询被转录并发送。无需打字，零摩擦。

ChatGPT 的高级语音模式更进一步：音频 Token 直接流入和流出模型，没有文本转录层。结果感觉真正像对话，而不是文本转语音的包装。

NotebookLM（Google）可以从你的文档生成音频播客。上传论文、书籍或笔记——它生成一个双主持人的讨论。Karpathy 在散步和长途驾驶时用它被动学习自己专业之外的主题。

Karpathy 的语音提示 对于包含产品名称、库名称或技术术语的查询——切换到打字。Whisper 经常误转录小众技术词汇。语音最适合自然语言问题。

🎙

说话

→

⚡

Whisper
转录

→

🧠

LLM
响应

→

📝

文本
回复

Super Whisper

Karpathy 首选 · Mac

全局热键录音 → 自动转录 → 粘贴到任何地方。系统级可用。

NotebookLM

Google · 免费

上传文档 → 生成双主持人播客讨论。适合被动学习。

高级语音

ChatGPT

原生音频 Token——低延迟，无转录层，真正对话式体验。

第 10 章 · 视觉输入

视觉与
相机

现代 LLM 接受图像输入——照片、截图、扫描件、图表。模型对视觉内容的推理能力与对文本一样流畅，这得益于包含数十亿图文对的训练数据。

Karpathy 的示例：上传血液检测扫描件请求解读，将摄像头对准Aeronet 4 CO2 监测仪识别设备并解读 713 PPM 的读数，以及展示一张指环王地图，模型正确识别为中土世界。

视觉在有充分文档记录的主题上最可靠——血液检测参考范围、常见消费设备、著名地图——训练数据充分覆盖了这些领域。对于专有或罕见物品，预期会有更多幻觉。

强视觉用例 识别未知物品、解读标准实验室结果、解释图表和图形、印刷文本 OCR、阅读手写、分析截图。

🩸

血液检测面板

"这是我的化验结果——请解释异常值"

效果好——参考范围在训练数据中有大量文档。Karpathy 验证了成分列表与实际包装盒一致。医疗决策请务必咨询医生。

📊

CO2 监测仪（Aeronet 4）

"这是什么设备，713 PPM 是好的读数吗？"

正确识别了设备，解释了 713 PPM 在室内是可接受的（目标：低于 800 PPM，超过 1000 PPM 需通风）。

🗺

奇幻地图识别

"你知道这是什么地图吗？"

立即识别为《指环王》中的中土世界地图——训练数据中著名的、广泛流传的图像。

第 11 章 · 个性化

记忆与
个性化

默认情况下，每次对话都是无状态的——标签页关闭时模型忘记一切。两个功能改变了这一点：记忆（ChatGPT 跨会话自动保存关于你的事实）和自定义指令（一个塑造每次响应的持久系统提示词）。

Karpathy 的自定义指令：请求教育性框架（"尽可能采用教育性方式"），为语言学习设置韩语敬语级别，以及分享关于他工作和兴趣的背景信息。

把自定义指令想象成你的个人系统提示词——它在每次对话前加载。好的指令压缩了你否则会在每次查询中重复的偏好，让每次会话感觉已经了解你。

入门自定义指令 "简洁回答。当代码和文字都可行时优先使用代码。当我给你一个文档时，先用一段话总结。明确标注你的假设。我在[你的领域]工作。"

自定义指令 · ChatGPT

ChatGPT 应该了解你什么？

我是一名对 ML 感兴趣的软件工程师。我偏好简洁、技术性的回答。我在学韩语——提供韩语文本时，默认使用敬语体（합쇼체）。

ChatGPT 应该如何回应？

解释概念时采用教育性方式。先呈现最重要的信息。大量使用代码片段。明确标注你做出的任何假设。

记忆 · 跨会话自动保存

用户偏好多步骤摘要使用项目符号列表

用户在家监测室内 CO2 水平

用户正在学韩语，希望使用 합쇼체 敬语体

+ 保存的记忆会随时间累积

第 12 章 · 参考

工具与
资源

Karpathy 讲座中提到的每一个工具、模型和资源——已链接并分类。

LLM 应用

ChatGPT

OpenAI

元老级。功能最全：网络搜索、深度研究、代码执行、语音、视觉、记忆。Karpathy 全程的主要演示工具。

首选功能最多

Claude

Anthropic · claude.ai

在编程和文档分析方面表现卓越。为 Cursor（Claude 3.7 Sonnet）提供底层支持。细致推理能力强。

编程文档

Gemini

Google · gemini.google.com

Google 的 LLM 应用。Gemini 2.0 Pro 实验版。深度 Google Workspace 集成和强大的多模态能力。

多模态

Perplexity

Perplexity AI · perplexity.ai

搜索优先的 LLM——始终检索并引用来源。Karpathy 演示了其深度研究功能。研究的绝佳默认选择。

搜索优先引用

Le Chat

Mistral · chat.mistral.ai

法国初创公司的替代方案。Mistral 的消费者聊天界面。擅长欧洲语言和编程。

替代方案

DeepSeek

中国 AI 实验室，编程和推理出人意料地强大。不同的训练方法论——值得与美国实验室对标测试。

替代方案编程

开发者与高级用户工具

Cursor

Cursor · cursor.com

Karpathy 的编程 IDE 首选。智能体 Composer 模式（⌘I）使用 Claude 3.7 Sonnet 在整个代码库中自主运行。

Karpathy 首选智能体

Windsurf

Codeium · windsurf.com

基于 VS Code 的智能体编程 IDE。Cursor 的替代方案——与 Cursor 和 VS Code 一起被提及为主要选项。

智能体

Super Whisper

Super Whisper · Mac

Karpathy 的语音输入工具首选。全局热键 → 录音 → 自动转录 → 粘贴。处理约一半的查询。

Karpathy 首选语音

NotebookLM

Google · notebooklm.google.com

从任何文档生成双主持人音频播客讨论。Karpathy 在散步和驾驶时用于被动学习。

音频

Ideogram

Ideogram · ideogram.ai

图像生成工具。在讲座中用作 DALL-E 的替代方案生成多张图片。

图像生成

Mermaid

mermaid.js.org

代码生成图表库。当你向 Claude 请求"概念图"时，它通常生成可渲染为图形的 Mermaid 标记。

参考与延伸阅读

免费公共领域书籍纯文本。Karpathy 用它获取《国富论》用于 LLM 文档分析演示。

书籍

第一部分：LLM 如何工作

Andrej Karpathy · YouTube

配套视频，涵盖 LLM 内部原理——训练、分词、Transformer 架构、后训练和 RLHF。

前置知识

第二部分：我如何使用 LLM

Andrej Karpathy · YouTube

本指南的来源视频。Karpathy 完整 LLM 工作流的实用演示，包含每个工具的现场演示。

来源

第 13 章 · 总结

关键
要点

01

你在与一个 ZIP 文件对话

模型将互联网压缩为权重。知识大约滞后 6-12 个月，输出是概率性的，在上下文窗口之外没有工作记忆。它无法验证自己的答案。

基础

02

了解你的层级和模型

免费 → 功能有限。$20/月 → GPT-4o / Claude Sonnet。$200/月 → o1 Pro、深度研究。根据任务匹配模型——思维模型用于困难推理，快速模型用于简单查询。

模型

03

仅对时间敏感信息搜索

对于永恒不变的、有充分文档记录的知识——权重足够，跳过搜索。对于近期事件、变化中的情况或小众主题——启用搜索或使用 Perplexity。

搜索

04

深度研究用于多来源综合

5-15 分钟，20-30 个来源，结构化报告。对文献综述和尽职调查确实有用。目前在 ChatGPT 上需 $200/月付费墙；Perplexity 更便宜。

研究

05

验证代码和数据输出

高级数据分析运行真实的 Python——但模型可能在编写的代码中幻觉数值。对照源数据检查数字，而不仅仅是图表的视觉形状。

代码

06

语音消除了一半的摩擦

基于 Whisper 的听写工具消除了打字障碍。Karpathy 约 50% 的查询通过语音完成。对于 Whisper 误转录的技术产品名和库名请使用文本。

语音

07

ChatGPT 是默认选择——目前而言

功能最多、生态系统最大、体验最完善。Claude 适合编程。Perplexity 适合搜索优先。格局变化很快——在做出选择前查看 LM Arena 的当前排名。

生态

基于 Andrej Karpathy 的 "我如何使用 LLM" 讲座构建。所有内容、示例和框架均可直接追溯至该来源。交互式可视化在 AI 辅助下构建。

← 第一部分：LLM 如何工作 · 完整转录 · GitHub

如何使用LLM

你在与一个ZIP 文件对话

模型与层级

思维模型

何时搜索

深度研究

文档与书籍

代码执行

智能体编程

语音与音频

视觉与相机

记忆与个性化

工具与资源

关键要点

如何使用
LLM

你在与一个
ZIP 文件对话

模型与
层级

思维
模型

何时
搜索

深度
研究

文档与
书籍

代码
执行

智能体
编程

语音与
音频

视觉与
相机

记忆与
个性化

工具与
资源

关键
要点