当前位置：首页>学习笔记>大语言模型与提示词工程课程・学习笔记-1

大语言模型与提示词工程课程・学习笔记-1

2026-04-27 11:20:32

本课程讲解大语言模型（LLM）基础应用，核心包括提示词工程与 OpenAI API 开发，适合有基础编程能力的学习者快速上手生成式 AI 实战。

课程先教如何设计清晰、有效的提示词，引导模型输出稳定结果；再通过 Python 调用 API，实现文本生成、摘要、图像生成等功能，并完成可复用的小项目。

面向有变量、函数、JSON 基础的学习者，适合数据科学、ML 工程师、产品及技术从业者提升 AI 落地能力。

课程目标

写出高质量 LLM 提示词（零样本 / 单样本 / 少样本）
调用 OpenAI API 搭建 AI 功能
使用 Python 库实现文本、图像等生成工作流

课程结构

模块 1：提示词工程
模块 2：OpenAI API 编程实践

环境与考核

环境：Google Colab

一、LLM 基础核心

定义

基于 TB 级文本数据、Transformer 架构构建的通用基础 AI 模型，可微调适配特定场景
生成原理
通过下一词预测生成文本序列，基于 token 与上下文理解
交互方式
采用提示 - 响应（对话）格式，支持多模态（文本 / 音频 / 图像 / 视频）
Token 关键

文本分析最小单位，AI 按 token 计费
上下文长度限制：GPT-3.5 (4096)、GPT-4 (8192)、GPT-4.5 (32768)
提示 + 回答总长度不可超过上限

二、聊天机器人演进

传统机器人
脚本化、AI 仅理解输入、输出固定话术
生成式机器人
基于 token 与上下文生成内容，可维护对话上下文

三、Prompt Engineering 核心

定义
构建生成式 AI 可理解的文本结构，用自然语言对话获取有用输出
输出类型
问答、文本、代码、图像、语音、视频
Prompt vs Question

Prompt：对话式，含上下文与结构指引，是交互核心方式
Question：直接询问信息，可作为 Prompt 使用

三类提示范式

Zero-shot：直接请求，用于事实查询
One-shot：提供 1 个示例，明确输出形式
Few-shot：提供多示例，用于学习新关联

四、提示工程规则与流程

核心规则
提对问题、正确提问、明确上下文、指定输出格式
执行流程
设定上下文→定义任务→逐步优化→评估响应

五、LLM 关键风险

幻觉（Hallucinations）
逐词生成易累积错误，输出虚假信息
版权问题
模型输出与训练数据版权界定不明确，存在大量诉讼
安全风险
输入数据可能被用于模型训练，需谨慎输入敏感信息

六、高级能力

ChatGPT Plus
支持图文 / 音频解析、图像生成、高级数据分析
数据分析
可执行回归、分类、特征重要性分析、可视化与模型评估
专用 GPT
面向垂直场景的定制化模型，持续扩充

七、思维链（CoT）与推理型 LLM

思维链
引导模型分步推理，显著提升复杂问题解决能力
推理型 LLM
内部生成完整思维链后输出答案，擅长多步逻辑、编码、科学任务
提示原则
指令简洁、优先零样本、无需额外要求分步思考、明确目标与格式

八、核心总结

LLM 功能强大且持续迭代，但存在错误与风险；推理型 LLM 在复杂逻辑任务表现优异，提示工程的核心是清晰、简洁、结构化地引导模型输出。

LLM 核心原理

知识来源

基于TB 级海量文本训练，学习结构化的人类全部知识
内部以概率权重表示知识与语言关系

生成机制

底层：Transformer 模型（为主）
核心：下一词预测（next word prediction） 逐词生成
流程：输入 → 权重计算 → 逐词输出 → 形成完整文本

基础模型特性

通用目的（general purpose）
，输出偏通用
需微调（fine-tune） 才能适配特定场景
采用对话式交互，支持追问、改写、总结、精简

聊天机器人对比

传统聊天机器人

高度脚本化（scripted）
输出为固定套话（canned response）
AI 仅用于理解输入

生成式 AI 机器人

基于 Token + 上下文 生成内容
可记忆对话历史，持续保持上下文

Token 深度要点

Token 本质

文本分析最小单位，最终转为数字供模型计算
一个词可能被拆分为多个 Token

上下文决定 Token 值

Token ID 不是固定的
随主语 / 宾语位置、句法角色、句子语境变化
只有语义不变的词（如动词关系）Token 才可能不变

计费与限制（关键）

按 Token 数量收费
上限 = 提示词 + 回答 总和
GPT-3.5：4096；GPT-4：8192；GPT-4.5：32768

LLM 靠概率与下一词预测生成内容；Token 带上下文、会变值；使用成本与长度上限都由 Token 决定；提示工程是无代码操控 LLM 的核心方式。

一、提示工程标准流程

设置上下文（Set up context）
提供完整背景，确保输出相关
定义任务（Define the task）
明确让模型做什么
说明步骤（Tell “how to”）
必要时给出格式、要求、约束
查看响应（Evaluate response）
检查是否符合预期
反复优化（Refine）
重设上下文、修改要求、调整语气，直到满意

提示工程 = 不断迭代的过程，不是一次性提问。

ChatGPT Plus = 自带数据分析工具 + 可视化 + 解读 + 建模助手

无需写代码即可完成完整统计分析流程。

ChatGPT Plus 可以零代码完成完整数据分析流程数据读取 → 清洗 → 划分 → 回归 → 分类 → 可视化 → 解释 → 优化建议

专用 GPT（Specialized GPTs）

面向垂直场景的定制化模型，生态持续扩大
用于特定任务：营销、logo 设计、文案、行业方案等
基于通用数据训练，不使用企业私有数据
来源公开库，但需自行校验结果

概率模型，必然会出错
即使 GPT-4 也有约 20% 错误率
越简单的指令越准确
复杂任务要拆分成小步骤，降低错误
所有结果必须人工校验

一、Chain of Thought Prompting（思维链提示）

定义
引导模型分步思考，先输出中间推理步骤，再给最终答案。
提出者
Google Brain 团队
核心作用
显著提升复杂推理、多步骤问题的能力。
与标准提示区别

标准提示：只给 “问题→答案”
CoT 提示：给 “问题→推理步骤→答案”

优点

提升多步骤推理
可解释性强（不是黑盒）
适合大模型

二、推理大模型（Reasoning LLMs）

工作方式
自动生成内部长思维链，先推理再输出答案。
训练方式强化学习（RL）
擅长任务

复杂问题解决
代码、编程
科学任务
多步骤规划、逻辑任务

优势
无需手动写 CoT 提示，自动分步思考。

三、多轮对话上下文构建规则

每一轮只保留：问题 + 最终答案
丢弃上一轮的思维链（CoT）
用答案作为新一轮的上下文
生成新的思维链 → 新答案

四、推理模型最佳提示方法（必背）

简洁、直接、少废话
像资深同事，不用过度指导。
优先零样本（zero-shot）
不用先给例子。
不用手动加 “think step by step”
模型已训练自动分步。
明确代码与输出格式
如：XML、目录、变更内容。

五、模型对比（OpenAI O1 / DeepSeek R1）

OpenAI O1

前端展示简化版思维链
后端可统计推理 token

DeepSeek R1

展示完整思维链
可通过 API 获取
内容极详细、偏啰嗦

共同点

结构高度相似
内容来自知识文件
结构化极强

六、代码与任务特点

擅长多文件、多目录、批量编辑代码
擅长多步骤规划任务
可做复杂任务的 “规划器（planner）”
用普通模型做执行环节

推理大模型自动内部思维链，靠强化学习训练；提示简洁、任务明确、无需分步指令；擅长复杂推理、代码、多步骤规划。

一、Token 限制（令牌上限）

当前模型上限极大

常见：32k、64k、128k 甚至更高
远超普通项目、文档、论文需求
一般项目很难触达上限

限制持续变大

模型迭代极快
半年后限制会大幅提升
长期不用担心上限问题

二、超大文档如何处理（突破限制）

核心方法：分块（Chunking）

把超大文档（如《战争与和平》）切成小块
典型块大小：512 / 1024 令牌
形成分块数组，依次送入模型
多次调用，把全部内容装进系统

实际方案：RAG（检索增强生成）

把所有分块存入数据库
用户提问 → 只检索最相关的少量分块
只把少量相关分块送给 LLM
永远不会触达模型上限

三、详细提示（Detailed Prompts）的价值

更详细 = 更少追问 = 更低总令牌

一次给足细节 → 一次得到最佳答案
减少多轮对话 → 总 token 反而更低

详细提示 = 更高准确率

输出格式明确
任务明确
结果更符合需求

四、成本与令牌权衡（Cost Trade-off）

单用户 / 单次使用

成本极低，几乎可以忽略
详细提示优先，不用考虑成本

百万级用户 / 大规模系统

精准（Accurate）
简洁（Concise）
无重复令牌

才有乘数效应
需要：

五、令牌 / 成本估算工具

有专门工具 / 程序可以：

估算提示令牌数
估算回复令牌数
计算总成本

提示令牌 < 回复生成令牌
可提前做成本预算与管理

当前令牌上限对普通项目几乎不是限制
分块（Chunk）+ RAG 可处理任意大文档
详细提示一次给足，反而更省令牌、更准确
成本极低，单用户不用考虑；大规模系统再做精简
有工具可做令牌 / 成本估算

module 2

使用 OpenAI API 开展基于大语言模型的编程开发
在笔记本环境（notebooks）中部署生成式 AI 模型
使用 LangChain、LLama-Index 等 Python 库，借助大语言模型进行数据分析
通过 OpenAI API 生成图像与音频

一、LLM 编程工具

LLM 为开发者提供支持：平台、API、第三方库
主流工具：OpenAI API、Meta LLaMa 3、Google Gemini、Vertex API

二、API（应用程序编程接口）

API 允许你：

编写复杂查询
提取相关结果
构建代码
定制领域专用 LLM
将 LLM 嵌入（Embed） 自己的应用

三、OpenAI API（核心）

三大功能

Interact（交互）
在代码里和 GPT 对话、提问、数据分析、代码建议 / 纠错
Build（构建）
为企业 / 应用定制专属 LLM
Embed（嵌入）
把聊天机器人集成到网页 / APP

使用条件

OpenAI 账号
新建项目
创建 API Key（密钥）
安全保存，绝不泄露

四、自定义大模型：人类智能体 vs LLM 智能体

Human Agent
靠学习、培训、证书增加知识，成本高
LLM Agent
靠三种方式增加知识

Retraining（完全重训练）
极贵
Fine Tuning（微调）
贵、耗时间
RAG
低成本、不改变模型

五、RAG（检索增强生成）★

定义

Retrieval-Augmented Generation：让 LLM 调用外部文档知识，不修改模型参数

流程

文档 → Chunking（分块）
分块 → Embedding（向量化）
存入 Vector Database（向量数据库）
用户问题 → 向量化
Vector Search（向量搜索）
返回最相关内容 → LLM 生成答案

Chunking（分块）

把长文档切成小段（如 250 词）
提高相关信息聚集度

六、向量数据库与余弦相似度

Vector Database（向量数据库）

存储向量，支持高效相似性检索

Cosine Similarity（余弦相似度）

计算两个向量的夹角余弦值
越接近 1 → 越相似
越接近 0 → 越不相似

七、Fine Tuning（微调）

用监督学习更新模型参数
成本高、耗时长
会改变模型权重

八、PEFT（参数高效微调）

只更新模型一小部分，节省资源

LoRA
IA3
Layer Freezing（层冻结）
Prefix Tuning
Prompt Tuning

API
应用程序接口
Embed
嵌入
Chunking
分块
Embedding
向量化
Vector Database
向量数据库
Cosine Similarity
余弦相似度
RAG (Retrieval-Augmented Generation)
检索增强生成
Fine Tuning
微调
PEFT
参数高效微调
LoRA
低秩适配

向量嵌入、余弦相似度与向量搜索｜

这部分是 RAG 最核心的技术底层

一、Embedding Vectors（向量嵌入）

把文本、分块（chunk）转换成数字向量
让机器能 “读懂” 语义相似度
相同主题、相近意思的内容，向量会靠得更近

二、Cosine Similarity（余弦相似度）

作用
衡量两个向量之间的相似程度
计算方式
计算两个向量夹角的余弦值
结果范围

0 ~ 1

越接近 1 = 越相似

越接近 0 = 越不相似

在 RAG 中
用来找到和用户问题最相关的文档块

三、Vector Search（向量搜索）

向量搜索 = 在向量数据库里快速找到最相似的向量因为数据量巨大，不能一个个暴力计算，所以需要高效算法：

四、NSW 算法（Navigable Small Worlds）

可导航小世界算法（向量搜索的基础算法）

核心思想

提前构建文档块的相似图（similarity graph）
每个块和其他块建立连接
利用六度分隔理论：任何两个块之间距离都很近

NSW 执行步骤

随机选一个文档块
计算它与 ** 输入向量（用户问题）** 的相似度
移动到它的邻居块，重新计算
当相似度不再提升时停止
重复多次，返回 Top-N 最相似块

NSW 图结构特点

M：每个块连接的邻居数量（如 M=2）
块数量巨大 → 图是 ** 稀疏（sparse）** 的
边的权重 = 余弦相似度的倒数
距离越小 = 越相似

五、HNSW 算法（Hierarchical Navigable Small Worlds）★★★

分层可导航小世界算法（目前工业界最常用）

是什么

NSW 的升级版
构建多层级的图结构
顶层节点少，底层节点多

工作方式

从最顶层随机选一个点开始搜索
一层一层往下走
每一层都用 NSW 搜索
最终找到最相似的向量

特点

速度极快
海量数据下依然高效

常见工具

FAISS（Facebook AI Similarity Search）

最流行的 HNSW 实现

六、HNSW 为什么比 NSW 强？

NSW：单层图，数据大了会慢
HNSW：多层级跳层搜索，大幅减少计算量

七、向量搜索在 RAG 里的完整作用

文档 → Chunking（分块）
分块 → Embedding（向量）
向量存入 Vector DB
用户问题 → 转向量
HNSW/NSW 向量搜索
取出最相似的块
送给 LLM → 生成最终答案

Embedding Vectors
向量嵌入
Cosine Similarity
余弦相似度
Vector Search
向量搜索
Vector Database
向量数据库
NSW（Navigable Small Worlds）
可导航小世界
HNSW（Hierarchical Navigable Small Worlds）
分层可导航小世界
FAISS
脸书开源向量搜索库
Top-N similar chunks
前 N 个最相似块
Sparse graph
稀疏图
Six degrees of separation
六度分隔理论

向量嵌入把文本变数字，余弦相似度衡量相似性，NSW 是基础向量搜索，HNSW 是分层超快版本，FAISS 是最常用工具，它们一起让 RAG 能快速从海量文档里找到相关内容。

一、RAG（回顾）

RAG（Retrieval-Augmented Generation）

不改变模型参数，不重新训练
外部文档 → 分块（Chunking）→ 向量化（Embedding）→ 存入向量数据库
用户提问 → 向量检索 → 取出最相关片段 → 送给 LLM 生成答案
优点：低成本、安全、不修改模型

二、Knowledge Graphs（知识图谱）

定义

一种用图结构组织和表示领域知识的数据模型，以 ** 实体（Entities）和关系（Relationships）** 形式存储。

核心功能

存储知识
实体 + 关系
检索知识
知识搜索、查询推理

特点

语义规范、结构清晰
可用于知识问答、行业知识库、智能检索

三、Fine-Tuning（微调）★★★

1. RAG vs Fine-Tuning 核心区别

RAG
模型不改变，只调用外部知识
Fine-Tuning

更新模型参数，相当于训练出新的 LLM

2. 微调的完整步骤

收集数据
数据必须高质量、有领域代表性、数量充足。
预处理与特征工程
清洗数据、构造合适特征。
划分数据集
训练集 / 验证集 / 测试集。
执行微调
测试与评估

四、Supervised Fine-Tuning（监督微调）

流程

给预训练模型提供带标签样本（Prompt + Response）
模型生成回答
与标准答案对比
修正权重（Weights）
反复迭代

优点

比完全重训练成本更低
回退到通用能力更自然
能适配垂直领域

缺点

改变模型权重，可能影响通用能力
过拟合（Overfitting）风险高
需要大量（Prompt-Response）格式数据，成本高

五、Instruction Tuning（指令微调）

定义

给模型指令（Instruction），让模型按指令执行任务。

示例

指令：Translate “I love you” into Italian
输出：te amo

使用场景

翻译
选择题
任务式生成

特点

标签数据不足时可用
输出格式明确、可控

六、PEFT（Parameter Efficient Fine-Tuning）

参数高效微调

核心思想

不更新整个模型，只更新一小部分参数→ 省显存、省数据、速度快、过拟合风险低

适用场景

资源有限
数据量少

七、PEFT 的六种方法

1. Adapters（适配器）

在 Transformer 中插入小模块
只训练适配器，不改动原模型
资源消耗极低

2. LoRA（Low Rank Adaptation）低秩适配

在两层之间插入两个小矩阵
原模型权重完全不变
只更新低秩部分
内存占用极小

3. QLoRA

量化版 LoRA，更小、更快。

4. IA3

结构类似 LoRA
直接学习低秩向量
比 LoRA 更快、更省显存

5. Layer Freezing（层冻结）

模型前层通用（语言、常识）→ 冻结
后层领域专用 → 更新
节省计算量

6. Prefix Tuning

输入前加一个前缀向量
给模型设定任务场景
极省显存，但只能设定上下文

7. Prompt Tuning

把不同问法的提示统一导向标准指令
不增加新知识，只优化指令理解

Knowledge Graph
知识图谱
Fine-Tuning
微调
Supervised Fine-Tuning
监督微调
Instruction Tuning
指令微调
PEFT
参数高效微调
LoRA
低秩适配
QLoRA
量化低秩适配
IA3
一种高效适配方法
Layer Freezing
层冻结
Prefix Tuning
前缀微调
Prompt Tuning
提示微调
Overfitting
过拟合

九、OpenAI API Key 获取步骤

注册 OpenAI 账号
进入平台（platform.openai.com）
点击左侧锁形图标（API Keys）
创建新密钥（Create new secret key）
保存好，不可泄露
新账号有 5 美元免费额度，3 个月过期
过期需绑定支付方式

RAG 不改变模型，低成本；微调会更新模型，效果强但成本高；PEFT 只改少量参数，高效省资源，是当下最主流的轻量化定制方法。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。