如何使用
LLM
超越内部原理——一份关于如何在日常工作中实际使用大语言模型的实用指南。基于 Andrej Karpathy 的 LLM 深度解析后续内容。
- 涵盖工具
- 14+
- 使用场景
- 12
- 模型
- 8+
- 来源
- 3h
配合 第一部分:LLM 如何工作 阅读。所有内容和示例均可追溯至 Karpathy 2025 年的视频。
超越内部原理——一份关于如何在日常工作中实际使用大语言模型的实用指南。基于 Andrej Karpathy 的 LLM 深度解析后续内容。
配合 第一部分:LLM 如何工作 阅读。所有内容和示例均可追溯至 Karpathy 2025 年的视频。
Karpathy 的心智模型:ChatGPT 是一个"单标签页 ZIP 文件"——互联网的高度压缩快照。它阅读了截止训练数据之前几乎所有的网页、书籍和文档,大约是 6-12 个月前的内容。返回的是该数据的概率性回忆。
上下文窗口是它的工作记忆——它当前能看到的一块有限的 Token 磁带。其中的内容可以直接访问。窗口之外的内容在本次对话中不存在。除非你启用记忆功能,否则会话之间没有持久记忆。
默认情况下,模型没有实时网络连接。模型产生的是你提示词的最统计可能的延续——不是查找,不是搜索,不是保证。
ChatGPT 是"元老级选手"——功能最多、最受欢迎、最完善。但自 2022 年以来,生态系统已经爆发式增长。根据任务选择合适的工具。
OpenAI 的 o1、o1 Pro、o3 和 o3-mini 是不同的品种——所有以"o"开头的模型名称都是思维模型。在返回答案之前,它们会运行一个扩展的内心独白:探索方法、回溯、尝试替代方案。
这源于强化学习:模型发现审慎策略能在困难问题上带来更好的结果。它尝试不同的想法、回溯、检查自己的推理——就像你在解决问题时的内心独白一样。
Karpathy 指出,Claude 3.7 Sonnet(非思维模型)解决了一个 o1 Pro 无法解决的编程难题。模型选择并不总是显而易见的——正确的工具取决于具体任务。
默认情况下,模型仅基于其权重运行——没有互联网,没有实时数据。启用网络搜索意味着它先检索页面,然后综合答案。这会增加延迟,但解锁了实时信息。
关键问题:模型的过时回忆够用吗?对于有充分文档记录的、永恒不变的知识——够用。对于任何时间敏感的、最近的或小众的内容——启用搜索或使用 Perplexity。
深度研究 = 扩展思维 + 网络搜索,运行 5-15 分钟。模型并行搜索数十个来源,跨来源推理,并生成结构化报告——人类研究员需要数小时才能完成的工作。
Karpathy 的演示:研究雷帕霉素与长寿。模型查看了 27+ 个来源,思考了 5 分钟,生成了一份涵盖作用机制(mTOR 抑制)、线虫/小鼠/人体试验数据、安全性问题和正在进行的研究的报告。
ChatGPT 深度研究(需 $200/月 Pro)和 Perplexity 的研究模式都提供此功能。对于文献综述、竞争分析和尽职调查——它显著降低了研究门槛。
附加文档可以将模型变成阅读助手。上传 PDF、粘贴章节、分享电子表格——然后提问、请求摘要,或从内容中生成概念图。
Karpathy 的示例:用 Claude 阅读《国富论》。"我附上了第 1 卷第 3 章——请创建这一章的概念图。"Claude 用 Mermaid 代码响应,这是一种图表标记语言,可以渲染为连接关键概念的图形。
对于数据,模型可以编写并运行 Python 来生成图表。但要把它当作一个非常初级的数据分析师——编写代码方面非常出色,但它在 Karpathy 发现的一个图表中幻觉出了一个"1.7 万亿"的数字。始终审查数字,而不仅仅是图表的形状。
graph TD A[劳动分工] -->|受限于| B[市场范围] B --> C[本地市场] B --> D[贸易网络] D --> E[水路运输] D --> F[陆路运输] E -->|成本更低| G[沿海城市] G -->|率先发展| H[专业化]
ChatGPT 的高级数据分析将模型连接到实时 Python 运行时。你用自然语言描述任务——它编写代码、运行并展示结果。无需复制粘贴,无需本地配置。
这是语言与计算的集成。算术、统计、数据清洗、图表生成——Python 能做的都可以。上传一个 CSV 请求趋势分析;几秒钟内得到 matplotlib 图表。
Karpathy 的警告:他发现模型生成的图表中出现了幻觉的"1.7 万亿"而不是正确的值。代码运行正常;数字是错的。把它当作一个能力很强但不可靠的初级员工——验证数字,而不仅仅是输出的形状。
超越聊天,一类新工具将 LLM 直接集成到你的代码编辑器中。Cursor 和 Windsurf 在底层运行 Claude 或 GPT,在你的整个代码库中自主操作——读取文件、编写代码、运行命令和迭代。
Cursor 的 Composer(⌘I)是一个自主智能体循环:描述一个任务,它会规划、编写文件、运行 Shell 命令、读取错误并循环——在任何破坏性操作前请求你的确认。Karpathy 在几分钟内从零构建了一个 React 应用。
Karpathy 设置中底层使用的模型:Claude 3.7 Sonnet。关键洞察是,当你足够了解模型以引导和纠正它,而不仅仅是提示和期望时,这些工具才最强大。
⌘K 行内编辑 ·
⌘L 聊天侧栏 ·
⌘I Composer(智能体模式)
Karpathy 大约一半的查询通过语音完成,使用 Super Whisper——他在 Super Whisper、WhisperFlow 和 MacWhisper 中的首选。按下热键,说话,再按一次——查询被转录并发送。无需打字,零摩擦。
ChatGPT 的高级语音模式更进一步:音频 Token 直接流入和流出模型,没有文本转录层。结果感觉真正像对话,而不是文本转语音的包装。
NotebookLM(Google)可以从你的文档生成音频播客。上传论文、书籍或笔记——它生成一个双主持人的讨论。Karpathy 在散步和长途驾驶时用它被动学习自己专业之外的主题。
现代 LLM 接受图像输入——照片、截图、扫描件、图表。模型对视觉内容的推理能力与对文本一样流畅,这得益于包含数十亿图文对的训练数据。
Karpathy 的示例:上传血液检测扫描件请求解读,将摄像头对准Aeronet 4 CO2 监测仪识别设备并解读 713 PPM 的读数,以及展示一张指环王地图,模型正确识别为中土世界。
视觉在有充分文档记录的主题上最可靠——血液检测参考范围、常见消费设备、著名地图——训练数据充分覆盖了这些领域。对于专有或罕见物品,预期会有更多幻觉。
默认情况下,每次对话都是无状态的——标签页关闭时模型忘记一切。两个功能改变了这一点:记忆(ChatGPT 跨会话自动保存关于你的事实)和自定义指令(一个塑造每次响应的持久系统提示词)。
Karpathy 的自定义指令:请求教育性框架("尽可能采用教育性方式"),为语言学习设置韩语敬语级别,以及分享关于他工作和兴趣的背景信息。
把自定义指令想象成你的个人系统提示词——它在每次对话前加载。好的指令压缩了你否则会在每次查询中重复的偏好,让每次会话感觉已经了解你。
Karpathy 讲座中提到的每一个工具、模型和资源——已链接并分类。
基于 Andrej Karpathy 的 "我如何使用 LLM" 讲座构建。所有内容、示例和框架均可直接追溯至该来源。交互式可视化在 AI 辅助下构建。