一、大语言模型是什么?
一句话定义:大语言模型(LLM,Large Language Model)是一种通过海量文本训练出来的AI,它的核心能力是「预测下一个词」。
听起来很简单,但正是这个简单能力,让它能写文章、写代码、回答问题、分析数据——几乎什么都能做。
类比理解: 想象一个读过互联网上几乎所有文章的人(大概相当于 1 万亿字),他不是「背下来」了所有内容,而是通过大量阅读,形成了对「什么词后面通常跟什么词」的超强直觉。
你问他"空调网关的常见故障是",他会根据这个语言直觉,给你补全一个很靠谱的答案。
二、Token:AI眼中的"文字乐高"
什么是Token?
Token 是 LLM 处理文字的最小单位。 不是字,不是词,是介于两者之间的「片段」。
举例:
- 英文:"ChatGPT" → 2个Token:"Chat" + "GPT"
- 中文:"大语言模型" → 约4-5个Token(每个汉字约1个)
- 数字:"12345" → 可能是1个或多个Token
为什么要有Token?
因为如果把每个字母/汉字都当成最小单位,字典太大;如果把每个词都当单位,新词没法处理。Token 是工程上的折中方案。
Token 对 PM 意味着什么?
- 成本:API 调用按 Token 计费,输入+输出各算
- 速度:Token 越多,响应越慢
- 限制:每次对话有 Token 上限(上下文窗口)
实际感受:GPT-4o 的上下文窗口约 128K Token,大约等于一本 20 万字的书。
三、训练:LLM 是怎么"学会"的?
预训练(Pre-training)
类比:给模型喂「全世界的书」
- 数据:Common Crawl(网页)、书籍、代码、论文,总量数万亿 Token
- 任务:根据上文,预测下一个词(叫「自回归语言建模」)
- 规模:用成千上万张 GPU,训练几个月
- 成本:GPT-4 的预训练据估计花了超过 1 亿美元
这个阶段结束后,模型学会了「语言的规律」,但还不会「听话」。
微调(Fine-tuning)和 RLHF
类比:让一个博学的野孩子学会礼貌回答问题
- 指令微调(SFT):给模型看「人类提问→好答案」的例子,教它「按指令说话」
- RLHF(基于人类反馈的强化学习):人工评价模型的回答好坏,用这个信号进一步优化
这个阶段让模型变成了「助手」——愿意帮你,而不只是续写文字。
关键洞察(PM视角)
你在用ChatGPT、Claude时感受到的「有用」,大部分来自微调,而不是预训练。预训练给了「知识」,微调给了「服务意识」。
四、推理:LLM 怎么回答你的问题?
推理(Inference)= 模型接收你的输入,生成输出的过程。
工作原理(简化版)
- 你输入:「空调网关的常见故障有哪些?」
- 系统把文字转成 Token 序列
- 模型根据每个 Token 计算「下一个 Token 的概率分布」
- 按概率选择下一个词(有随机性,所以每次答案略有不同)
- 重复直到生成完整回答
关键参数:Temperature(温度)
- Temperature = 0:每次都选概率最高的词,结果稳定、无创意
- Temperature = 1:正常随机性,回答自然多样
- Temperature = 2:极度随机,可能「胡说八道」
PM场景:写代码 → Temperature低;写营销文案 → Temperature高一点。
推理成本
- 比训练便宜很多,但量大了也不便宜
- API 调用费用 = 输入 Token 数 × 单价 + 输出 Token 数 × 单价
- 输出比输入贵(因为要逐个生成)
五、上下文窗口:AI的"短期记忆"
什么是上下文窗口?
上下文窗口(Context Window)= LLM 在一次对话中能「看到」的最大 Token 数。
超出这个范围的内容,模型就「忘了」。
各模型上下文窗口对比
| 模型 | 上下文窗口 | 大约等于 |
|---|
| GPT-3.5 | 16K Token | 2.5万字 |
| GPT-4o | 128K Token | 20万字 |
| Claude 3.5 Sonnet | 200K Token | 30万字 |
| Gemini 1.5 Pro | 1M Token | 150万字 |
上下文窗口 vs 记忆
❌ 误区:上下文窗口不等于记忆。关了窗口,下次对话从零开始。
✅ 正确理解:上下文窗口是「这次对话的黑板」,对话结束就擦掉了。
PM 视角的影响
- RAG(检索增强生成) 的出现,就是为了解决上下文窗口不够大的问题
- 上下文越大,成本越高(处理时间和计算量都增加)
- 产品设计时,要考虑「用户的对话会不会超出上下文窗口」
六、200字通俗总结(内容素材版)
以下是我用自己的话写的200字总结,语气是「给朋友讲」,可以直接用作内容素材。
【PM视角解释LLM】
大语言模型(LLM)说白了就是一个"预测接龙高手"。
它不是真的"理解"语言,而是读完了互联网上几乎所有的书和文章后,学会了"什么词后面通常跟什么词"的超强规律。
你问它问题,它就根据这个规律,一个词一个词地给你接出来。
处理文字的最小单位叫 Token,大概比一个词小、比一个字大。你和ChatGPT的每次对话,都是在消耗Token,这也是API收费的单位。
模型能"看到"的对话历史有个上限,叫上下文窗口。超出这个范围它就"忘了"——所以长对话到后面模型会变笨,不是bug,是设计限制。
训练分两步:先喂海量数据让它"博学",再用人类反馈让它"听话"。
作为PM,最重要的理解是:LLM的能力边界来自训练数据,它不会推理、不会真正理解,但在「语言预测」这件事上已经超越了大多数人类。
七、内容选题池(从这篇笔记延伸)
- 📱 「ChatGPT到底是怎么工作的?PM用3个类比讲清楚」
- 核心:Token类比乐高,训练类比读书,上下文类比黑板
- 📱 「为什么AI越聊越笨?上下文窗口没人讲清楚」
- 核心:上下文窗口的限制,以及RAG如何解决这个问题
- 📱 「调用AI API要花多少钱?一个PM的真实计算」
- 📱 「Temperature=0 vs Temperature=1,我做了个实验」
- 📱 「LLM不会真正"理解"语言,那它是怎么骗过我们的?」
八、延伸学习资源
入门(必看)
- 🎬 3Blue1Brown - Neural Networks系列[1] - 最好的神经网络可视化讲解(英文)
- 🎬 李宏毅 - 机器学习2023[2] - 台大教授,中文讲解,深入浅出
- 📝 What Is ChatGPT Doing[3] - Stephen Wolfram写的,技术派最推荐的LLM入门长文
实操验证
- 去 OpenAI Tokenizer[4] 测试任意文本的Token数
- 用Claude/ChatGPT做对话,观察上下文窗口的实际影响
下一步学习:Prompt Engineering基础 → 任务卡已排期 2026-03-03
参考链接
- 3Blue1Brown - Neural Networks系列: https://www.youtube.com/playlist?list=PLZHQObOWTQDNU6R1_67000Dx_ZCJB-3pi
- 李宏毅 - 机器学习2023: https://www.youtube.com/playlist?list=PLJV_el3uVTsPy9oCRY30oBPNLCo89yu49
- What Is ChatGPT Doing: https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work/
- OpenAI Tokenizer: https://platform.openai.com/tokenizer