如何使用
LLM

超越内部原理——一份关于如何在日常工作中实际使用大语言模型的实用指南。基于 Andrej Karpathy 的 LLM 深度解析后续内容。

涵盖工具
14+
使用场景
12
模型
8+
来源
3h

配合 第一部分:LLM 如何工作 阅读。所有内容和示例均可追溯至 Karpathy 2025 年的视频。

问:使用前我应该了解什么?
第 1 章 · 基础

你在与一个
ZIP 文件对话

Karpathy 的心智模型:ChatGPT 是一个"单标签页 ZIP 文件"——互联网的高度压缩快照。它阅读了截止训练数据之前几乎所有的网页、书籍和文档,大约是 6-12 个月前的内容。返回的是该数据的概率性回忆。

上下文窗口是它的工作记忆——它当前能看到的一块有限的 Token 磁带。其中的内容可以直接访问。窗口之外的内容在本次对话中不存在。除非你启用记忆功能,否则会话之间没有持久记忆。

默认情况下,模型没有实时网络连接。模型产生的是你提示词的最统计可能的延续——不是查找,不是搜索,不是保证。

自我介绍 "你好,我是 ChatGPT。我是一个单标签页 ZIP 文件。我的知识来自大约 6 个月前阅读互联网。我只知道本次对话中的内容。我生成的每一个词都是概率性采样——请据此对待。"
上下文窗口 · 实时工作记忆
系统
你是一个有帮助的助手。
用户
一杯美式咖啡含多少咖啡因?
助手
每份浓缩约 63mg...
用户
双份浓缩呢?
以上所有内容对模型可见。一旦窗口填满,旧的上下文就会从边缘滑落并消失。
过时知识提醒 对于咖啡因含量这类永恒不变的事实,模型的权重是可靠的。但对于上个月的新闻——则不然。在信任答案之前,请了解两者的区别。
第 2 章 · 生态

模型与
层级

ChatGPT 是"元老级选手"——功能最多、最受欢迎、最完善。但自 2022 年以来,生态系统已经爆发式增长。根据任务选择合适的工具。

Claude
Anthropic
在编程和文档分析方面表现卓越。为 Cursor(3.7 Sonnet)提供底层支持。在细致推理任务上经常超越对手。
编程文档
Gemini
Google
Google 的参赛选手。Gemini 2.0 Pro 实验版可用。与 Google Workspace 深度集成。强大的多模态能力。
多模态
Perplexity
Perplexity AI
搜索优先的 LLM。始终检索并引用来源。Karpathy 演示了其深度研究功能用于雷帕霉素研究示例。
搜索优先引用
Le Chat
Mistral
法国初创公司的替代方案。Mistral 的消费者聊天界面。擅长欧洲语言和编程。
替代方案
DeepSeek
DeepSeek
中国 AI 实验室。在编程和推理方面出人意料地强大。与美国实验室不同的训练方法——值得对标测试。
替代方案编程
模型家族
OpenAI
GPT-4o 快速 · 智能 · 默认
o1 / o3 / o3-mini 思维模型
o1 Pro $200/月 · 深度推理
Anthropic
Claude 3.7 Sonnet 编程 + 推理
Claude 3.5 Sonnet 快速 + 能力强
Claude Haiku 轻量级
Google
Gemini 2.0 Pro 多模态
Gemini Flash 快速 · 通常免费
其他
DeepSeek 中国 · 擅长编程
Mistral 法国 · Le Chat
去哪里对比 LM Arena (lmarena.ai)——前身为 Chatbot Arena——维护着一个按人类偏好投票排名的实时排行榜。这是"哪个模型现在实际上更好"最可靠的信号。
第 3 章 · 推理

思维
模型

OpenAI 的 o1、o1 Pro、o3 和 o3-mini 是不同的品种——所有以"o"开头的模型名称都是思维模型。在返回答案之前,它们会运行一个扩展的内心独白:探索方法、回溯、尝试替代方案。

这源于强化学习:模型发现审慎策略能在困难问题上带来更好的结果。它尝试不同的想法、回溯、检查自己的推理——就像你在解决问题时的内心独白一样。

Karpathy 指出,Claude 3.7 Sonnet(非思维模型)解决了一个 o1 Pro 无法解决的编程难题。模型选择并不总是显而易见的——正确的工具取决于具体任务。

何时使用思维模型 困难的数学题、复杂的多步骤编程、形式推理、逻辑谜题。简单任务请跳过它们——它们更慢、更贵,当没有困难的问题需要推理时,审慎帮助不大。
o1 Pro · 扩展思维 就绪
"证明两个奇数之和总是偶数。"
点击运行查看扩展思维展开过程
第 5 章 · 综合

深度
研究

深度研究 = 扩展思维 + 网络搜索,运行 5-15 分钟。模型并行搜索数十个来源,跨来源推理,并生成结构化报告——人类研究员需要数小时才能完成的工作。

Karpathy 的演示:研究雷帕霉素与长寿。模型查看了 27+ 个来源,思考了 5 分钟,生成了一份涵盖作用机制(mTOR 抑制)、线虫/小鼠/人体试验数据、安全性问题和正在进行的研究的报告。

ChatGPT 深度研究(需 $200/月 Pro)和 Perplexity 的研究模式都提供此功能。对于文献综述、竞争分析和尽职调查——它显著降低了研究门槛。

最佳用途 科学文献调研、竞争格局分析、决策尽职调查、医疗/法律研究(需验证)。对于简单的事实性问题不值得使用。
深度研究流程
1
查询规划
将问题分解为子主题和并行搜索查询
2
并行网络搜索
同时跨子主题获取 20-30 个来源
3
扩展思维
跨来源推理,解决冲突,识别空白
4
报告生成
带引用、机制、注意事项的结构化报告
第 6 章 · 阅读

文档与
书籍

附加文档可以将模型变成阅读助手。上传 PDF、粘贴章节、分享电子表格——然后提问、请求摘要,或从内容中生成概念图。

Karpathy 的示例:用 Claude 阅读《国富论》。"我附上了第 1 卷第 3 章——请创建这一章的概念图。"Claude 用 Mermaid 代码响应,这是一种图表标记语言,可以渲染为连接关键概念的图形。

对于数据,模型可以编写并运行 Python 来生成图表。但要把它当作一个非常初级的数据分析师——编写代码方面非常出色,但它在 Karpathy 发现的一个图表中幻觉出了一个"1.7 万亿"的数字。始终审查数字,而不仅仅是图表的形状。

关键工作流 附加文档 → 请求摘要 → 通过问答深入各章节 → 请求概念图(Mermaid)→ 对照来源验证任何具体数字。
国富论 · 第 I 卷,第 3 章 Claude 3.7 Sonnet
请创建这一章的概念图
mermaid
graph TD
  A[劳动分工] -->|受限于| B[市场范围]
  B --> C[本地市场]
  B --> D[贸易网络]
  D --> E[水路运输]
  D --> F[陆路运输]
  E -->|成本更低| G[沿海城市]
  G -->|率先发展| H[专业化]
渲染后的图表展示了斯密如何论证市场规模制约专业化——更大的市场使更深入的劳动分工成为可能。
节点 D 中有什么隐含假设?
节点 D 假设贸易网络在法律和政治上是可及的——斯密的隐含前提是功能性的交换基础设施已经存在。他指出了这个前提条件但没有为之论证。
第 7 章 · 数据分析

代码
执行

ChatGPT 的高级数据分析将模型连接到实时 Python 运行时。你用自然语言描述任务——它编写代码、运行并展示结果。无需复制粘贴,无需本地配置。

这是语言与计算的集成。算术、统计、数据清洗、图表生成——Python 能做的都可以。上传一个 CSV 请求趋势分析;几秒钟内得到 matplotlib 图表。

Karpathy 的警告:他发现模型生成的图表中出现了幻觉的"1.7 万亿"而不是正确的值。代码运行正常;数字是错的。把它当作一个能力很强但不可靠的初级员工——验证数字,而不仅仅是输出的形状。

原则 当你需要计算、转换或可视化时使用代码执行。始终检查:生成的代码是否匹配你的要求?输出对照你的源数据看起来是否合理?
高级数据分析 · Python 运行时
"绘制 1990-2023 年 G7 国家 GDP 增长"
第 8 章 · 开发

智能体
编程

超越聊天,一类新工具将 LLM 直接集成到你的代码编辑器中。CursorWindsurf 在底层运行 Claude 或 GPT,在你的整个代码库中自主操作——读取文件、编写代码、运行命令和迭代。

Cursor 的 Composer(⌘I)是一个自主智能体循环:描述一个任务,它会规划、编写文件、运行 Shell 命令、读取错误并循环——在任何破坏性操作前请求你的确认。Karpathy 在几分钟内从零构建了一个 React 应用。

Karpathy 设置中底层使用的模型:Claude 3.7 Sonnet。关键洞察是,当你足够了解模型以引导和纠正它,而不仅仅是提示和期望时,这些工具才最强大。

Cursor 键盘快捷键 ⌘K 行内编辑  ·  ⌘L 聊天侧栏  ·  ⌘I Composer(智能体模式)
Composer 智能体循环
1
规划
将任务分解为文件变更和 Shell 命令
2
生成
在代码库中编写或编辑源文件
3
执行
运行 Shell 命令——先征求你的批准
4
观察
读取输出,捕获错误,更新计划
↺ 循环直到完成或卡住
第 9 章 · 多模态

语音与
音频

Karpathy 大约一半的查询通过语音完成,使用 Super Whisper——他在 Super Whisper、WhisperFlow 和 MacWhisper 中的首选。按下热键,说话,再按一次——查询被转录并发送。无需打字,零摩擦。

ChatGPT 的高级语音模式更进一步:音频 Token 直接流入和流出模型,没有文本转录层。结果感觉真正像对话,而不是文本转语音的包装。

NotebookLM(Google)可以从你的文档生成音频播客。上传论文、书籍或笔记——它生成一个双主持人的讨论。Karpathy 在散步和长途驾驶时用它被动学习自己专业之外的主题。

Karpathy 的语音提示 对于包含产品名称、库名称或技术术语的查询——切换到打字。Whisper 经常误转录小众技术词汇。语音最适合自然语言问题。
🎙
说话
Whisper
转录
🧠
LLM
响应
📝
文本
回复
Super Whisper
Karpathy 首选 · Mac
全局热键录音 → 自动转录 → 粘贴到任何地方。系统级可用。
NotebookLM
Google · 免费
上传文档 → 生成双主持人播客讨论。适合被动学习。
高级语音
ChatGPT
原生音频 Token——低延迟,无转录层,真正对话式体验。
第 10 章 · 视觉输入

视觉与
相机

现代 LLM 接受图像输入——照片、截图、扫描件、图表。模型对视觉内容的推理能力与对文本一样流畅,这得益于包含数十亿图文对的训练数据。

Karpathy 的示例:上传血液检测扫描件请求解读,将摄像头对准Aeronet 4 CO2 监测仪识别设备并解读 713 PPM 的读数,以及展示一张指环王地图,模型正确识别为中土世界。

视觉在有充分文档记录的主题上最可靠——血液检测参考范围、常见消费设备、著名地图——训练数据充分覆盖了这些领域。对于专有或罕见物品,预期会有更多幻觉。

强视觉用例 识别未知物品、解读标准实验室结果、解释图表和图形、印刷文本 OCR、阅读手写、分析截图。
🩸
血液检测面板
"这是我的化验结果——请解释异常值"
效果好——参考范围在训练数据中有大量文档。Karpathy 验证了成分列表与实际包装盒一致。医疗决策请务必咨询医生。
📊
CO2 监测仪(Aeronet 4)
"这是什么设备,713 PPM 是好的读数吗?"
正确识别了设备,解释了 713 PPM 在室内是可接受的(目标:低于 800 PPM,超过 1000 PPM 需通风)。
🗺
奇幻地图识别
"你知道这是什么地图吗?"
立即识别为《指环王》中的中土世界地图——训练数据中著名的、广泛流传的图像。
第 11 章 · 个性化

记忆与
个性化

默认情况下,每次对话都是无状态的——标签页关闭时模型忘记一切。两个功能改变了这一点:记忆(ChatGPT 跨会话自动保存关于你的事实)和自定义指令(一个塑造每次响应的持久系统提示词)。

Karpathy 的自定义指令:请求教育性框架("尽可能采用教育性方式"),为语言学习设置韩语敬语级别,以及分享关于他工作和兴趣的背景信息。

把自定义指令想象成你的个人系统提示词——它在每次对话前加载。好的指令压缩了你否则会在每次查询中重复的偏好,让每次会话感觉已经了解你。

入门自定义指令 "简洁回答。当代码和文字都可行时优先使用代码。当我给你一个文档时,先用一段话总结。明确标注你的假设。我在[你的领域]工作。"
自定义指令 · ChatGPT
我是一名对 ML 感兴趣的软件工程师。我偏好简洁、技术性的回答。我在学韩语——提供韩语文本时,默认使用敬语体(합쇼체)。
解释概念时采用教育性方式。先呈现最重要的信息。大量使用代码片段。明确标注你做出的任何假设。
记忆 · 跨会话自动保存
用户偏好多步骤摘要使用项目符号列表
用户在家监测室内 CO2 水平
用户正在学韩语,希望使用 합쇼체 敬语体
+ 保存的记忆会随时间累积
第 12 章 · 参考

工具与
资源

Karpathy 讲座中提到的每一个工具、模型和资源——已链接并分类。

第 13 章 · 总结

关键
要点

01
你在与一个 ZIP 文件对话
模型将互联网压缩为权重。知识大约滞后 6-12 个月,输出是概率性的,在上下文窗口之外没有工作记忆。它无法验证自己的答案。
基础
02
了解你的层级和模型
免费 → 功能有限。$20/月 → GPT-4o / Claude Sonnet。$200/月 → o1 Pro、深度研究。根据任务匹配模型——思维模型用于困难推理,快速模型用于简单查询。
模型
03
仅对时间敏感信息搜索
对于永恒不变的、有充分文档记录的知识——权重足够,跳过搜索。对于近期事件、变化中的情况或小众主题——启用搜索或使用 Perplexity。
搜索
04
深度研究用于多来源综合
5-15 分钟,20-30 个来源,结构化报告。对文献综述和尽职调查确实有用。目前在 ChatGPT 上需 $200/月付费墙;Perplexity 更便宜。
研究
05
验证代码和数据输出
高级数据分析运行真实的 Python——但模型可能在编写的代码中幻觉数值。对照源数据检查数字,而不仅仅是图表的视觉形状。
代码
06
语音消除了一半的摩擦
基于 Whisper 的听写工具消除了打字障碍。Karpathy 约 50% 的查询通过语音完成。对于 Whisper 误转录的技术产品名和库名请使用文本。
语音
07
ChatGPT 是默认选择——目前而言
功能最多、生态系统最大、体验最完善。Claude 适合编程。Perplexity 适合搜索优先。格局变化很快——在做出选择前查看 LM Arena 的当前排名。
生态

基于 Andrej Karpathy 的 "我如何使用 LLM" 讲座构建。所有内容、示例和框架均可直接追溯至该来源。交互式可视化在 AI 辅助下构建。

← 第一部分:LLM 如何工作 · 完整转录 · GitHub

转载 作者: ynarwal · 基于 Andrej Karpathy 的讲座 查看原文 ↗
← 返回转载列表 ⚠️ 翻译转载,版权归原作者所有