当前位置：首页>学习笔记>LLM基础学习笔记:什么是大语言模型

LLM基础学习笔记:什么是大语言模型

2026-04-17 20:47:58

LLM基础学习笔记:什么是大语言模型

一、大语言模型是什么？

一句话定义：大语言模型（LLM，Large Language Model）是一种通过海量文本训练出来的AI，它的核心能力是「预测下一个词」。

听起来很简单，但正是这个简单能力，让它能写文章、写代码、回答问题、分析数据——几乎什么都能做。

类比理解：想象一个读过互联网上几乎所有文章的人（大概相当于 1 万亿字），他不是「背下来」了所有内容，而是通过大量阅读，形成了对「什么词后面通常跟什么词」的超强直觉。

你问他"空调网关的常见故障是"，他会根据这个语言直觉，给你补全一个很靠谱的答案。

二、Token：AI眼中的"文字乐高"

什么是Token？

Token 是 LLM 处理文字的最小单位。 不是字，不是词，是介于两者之间的「片段」。

举例：

英文："ChatGPT" → 2个Token："Chat" + "GPT"
中文："大语言模型" → 约4-5个Token（每个汉字约1个）
数字："12345" → 可能是1个或多个Token

为什么要有Token？

因为如果把每个字母/汉字都当成最小单位，字典太大；如果把每个词都当单位，新词没法处理。Token 是工程上的折中方案。

Token 对 PM 意味着什么？

成本：API 调用按 Token 计费，输入+输出各算
速度：Token 越多，响应越慢
限制：每次对话有 Token 上限（上下文窗口）

实际感受：GPT-4o 的上下文窗口约 128K Token，大约等于一本 20 万字的书。

三、训练：LLM 是怎么"学会"的？

预训练（Pre-training）

类比：给模型喂「全世界的书」

数据：Common Crawl（网页）、书籍、代码、论文，总量数万亿 Token
任务：根据上文，预测下一个词（叫「自回归语言建模」）
规模：用成千上万张 GPU，训练几个月
成本：GPT-4 的预训练据估计花了超过 1 亿美元

这个阶段结束后，模型学会了「语言的规律」，但还不会「听话」。

微调（Fine-tuning）和 RLHF

类比：让一个博学的野孩子学会礼貌回答问题

指令微调（SFT）：给模型看「人类提问→好答案」的例子，教它「按指令说话」
RLHF（基于人类反馈的强化学习）：人工评价模型的回答好坏，用这个信号进一步优化

这个阶段让模型变成了「助手」——愿意帮你，而不只是续写文字。

关键洞察（PM视角）

你在用ChatGPT、Claude时感受到的「有用」，大部分来自微调，而不是预训练。预训练给了「知识」，微调给了「服务意识」。

四、推理：LLM 怎么回答你的问题？

推理（Inference）= 模型接收你的输入，生成输出的过程。

工作原理（简化版）

你输入：「空调网关的常见故障有哪些？」
系统把文字转成 Token 序列
模型根据每个 Token 计算「下一个 Token 的概率分布」
按概率选择下一个词（有随机性，所以每次答案略有不同）
重复直到生成完整回答

关键参数：Temperature（温度）

Temperature = 0：每次都选概率最高的词，结果稳定、无创意
Temperature = 1：正常随机性，回答自然多样
Temperature = 2：极度随机，可能「胡说八道」

PM场景：写代码 → Temperature低；写营销文案 → Temperature高一点。

推理成本

比训练便宜很多，但量大了也不便宜
API 调用费用 = 输入 Token 数 × 单价 + 输出 Token 数 × 单价
输出比输入贵（因为要逐个生成）

五、上下文窗口：AI的"短期记忆"

什么是上下文窗口？

上下文窗口（Context Window）= LLM 在一次对话中能「看到」的最大 Token 数。

超出这个范围的内容，模型就「忘了」。

各模型上下文窗口对比

模型	上下文窗口	大约等于
GPT-3.5	16K Token	2.5万字
GPT-4o	128K Token	20万字
Claude 3.5 Sonnet	200K Token	30万字
Gemini 1.5 Pro	1M Token	150万字

上下文窗口 vs 记忆

❌ 误区：上下文窗口不等于记忆。关了窗口，下次对话从零开始。

✅ 正确理解：上下文窗口是「这次对话的黑板」，对话结束就擦掉了。

PM 视角的影响

RAG（检索增强生成） 的出现，就是为了解决上下文窗口不够大的问题
上下文越大，成本越高（处理时间和计算量都增加）
产品设计时，要考虑「用户的对话会不会超出上下文窗口」

六、200字通俗总结（内容素材版）

以下是我用自己的话写的200字总结，语气是「给朋友讲」，可以直接用作内容素材。

【PM视角解释LLM】

大语言模型（LLM）说白了就是一个"预测接龙高手"。

它不是真的"理解"语言，而是读完了互联网上几乎所有的书和文章后，学会了"什么词后面通常跟什么词"的超强规律。

你问它问题，它就根据这个规律，一个词一个词地给你接出来。

处理文字的最小单位叫 Token，大概比一个词小、比一个字大。你和ChatGPT的每次对话，都是在消耗Token，这也是API收费的单位。

模型能"看到"的对话历史有个上限，叫上下文窗口。超出这个范围它就"忘了"——所以长对话到后面模型会变笨，不是bug，是设计限制。

训练分两步：先喂海量数据让它"博学"，再用人类反馈让它"听话"。

作为PM，最重要的理解是：LLM的能力边界来自训练数据，它不会推理、不会真正理解，但在「语言预测」这件事上已经超越了大多数人类。

七、内容选题池（从这篇笔记延伸）

📱 「ChatGPT到底是怎么工作的？PM用3个类比讲清楚」

核心：Token类比乐高，训练类比读书，上下文类比黑板

📱 「为什么AI越聊越笨？上下文窗口没人讲清楚」

核心：上下文窗口的限制，以及RAG如何解决这个问题

📱 「调用AI API要花多少钱？一个PM的真实计算」

核心：Token计费、上下文大小对成本的影响

📱 「Temperature=0 vs Temperature=1，我做了个实验」

核心：同一个问题，不同温度设置下的回答对比

📱 「LLM不会真正"理解"语言，那它是怎么骗过我们的？」

核心：统计规律的力量，与"理解"的区别

八、延伸学习资源

入门（必看）

🎬 3Blue1Brown - Neural Networks系列^[1] - 最好的神经网络可视化讲解（英文）
🎬 李宏毅 - 机器学习2023^[2] - 台大教授，中文讲解，深入浅出
📝 What Is ChatGPT Doing^[3] - Stephen Wolfram写的，技术派最推荐的LLM入门长文

实操验证

去 OpenAI Tokenizer^[4] 测试任意文本的Token数
用Claude/ChatGPT做对话，观察上下文窗口的实际影响

下一步学习：Prompt Engineering基础 → 任务卡已排期 2026-03-03

参考链接

3Blue1Brown - Neural Networks系列: https://www.youtube.com/playlist?list=PLZHQObOWTQDNU6R1_67000Dx_ZCJB-3pi
李宏毅 - 机器学习2023: https://www.youtube.com/playlist?list=PLJV_el3uVTsPy9oCRY30oBPNLCo89yu49
What Is ChatGPT Doing: https://writings.stephenwolfram.com/2023/02/what-is-chatgpt-doing-and-why-does-it-work/
OpenAI Tokenizer: https://platform.openai.com/tokenizer

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

LLM基础学习笔记:什么是大语言模型

一、大语言模型是什么？

二、Token：AI眼中的"文字乐高"

什么是Token？

为什么要有Token？

Token 对 PM 意味着什么？

三、训练：LLM 是怎么"学会"的？

预训练（Pre-training）

微调（Fine-tuning）和 RLHF

关键洞察（PM视角）

四、推理：LLM 怎么回答你的问题？

工作原理（简化版）

关键参数：Temperature（温度）

推理成本

五、上下文窗口：AI的"短期记忆"

什么是上下文窗口？

各模型上下文窗口对比

上下文窗口 vs 记忆

PM 视角的影响

六、200字通俗总结（内容素材版）

七、内容选题池（从这篇笔记延伸）

八、延伸学习资源

入门（必看）

实操验证

参考链接

最新文章

热门文章

随机文章

LLM基础学习笔记:什么是大语言模型

一、大语言模型是什么？

二、Token：AI眼中的"文字乐高"

什么是Token？

为什么要有Token？

Token 对 PM 意味着什么？

三、训练：LLM 是怎么"学会"的？

预训练（Pre-training）

微调（Fine-tuning）和 RLHF

关键洞察（PM视角）

四、推理：LLM 怎么回答你的问题？

工作原理（简化版）

关键参数：Temperature（温度）

推理成本

五、上下文窗口：AI的"短期记忆"

什么是上下文窗口？

各模型上下文窗口对比

上下文窗口 vs 记忆

PM 视角的影响

六、200字通俗总结（内容素材版）

七、内容选题池（从这篇笔记延伸）

八、延伸学习资源

入门（必看）

实操验证

参考链接

《红楼梦》学习笔记——第三回(中):主要人物出场了 之 “这个妹妹我曾见过的”

学习笔记——马年国学第一课

最新文章

热门文章

随机文章

《红楼梦》学习笔记——第三回(中):主要人物出场了之 “这个妹妹我曾见过的”