一、LLM基础-概念
1.LLM是什么?
LLM是一个基于海量文本数据训练的模型,能够进行复杂对话、文本创作等任务。LLM本身不会思考、没有意识,只是根据输入上下文,不断预测概率最高的下一个词,从而形成通顺文本。他的发展起源于Google发表的一篇论文《attention is all you need》提出的transformer架构,并且被openai发展到极致,推出GPT系列,引爆对话式AI。而直到如今有了更多的后起之秀,譬如Claude、GLM等等。2.Token是什么?
Token是大模型处理文本的最小单位,通过Tokenizer(分词器)将文本切分为片段。3.Context Window是什么?
Context包括对话历史、用户问题、 当前输出、 工具列表、System PromptContext就是大模型每次处理问题的信息总和,可以抽象地理解为是大模型地临时记忆体而Context Window则是表示了Context所能容纳的最大的token数量。而如果超过这个上下文窗口的内容将会被直接截断扔掉,模型彻底看不见。所以你会不会偶尔觉得你的ai伴侣的记性不是很好呢?这其实是物理限制了他们,而不是他们真的主动遗忘。4.Prompt是什么?
Prompt 就是我们常说的提示词,核心是向大模型传递指令或问题,它的质量会直接影响模型的输出效果。早年,Prompt 是一项专门的工程,也催生了不少相关的工作;但随着 LLM 能力的飞速提升,即使我们的提示词相对简略模糊,模型也大多能准确理解意图并给出正确回答。它主要分为两类:用户提示,即用户输入的具体任务(如 “帮我写一首诗”);系统提示,即开发者配置给模型的人设与行为规则(如 “你是一名数学老师,要引导学生思考而非直接给答案”)5.什么是Tool
工具(Tool)是为了弥补大模型无法获取实时信息、计算能力有限、无法直接操作外部系统等天生短板而诞生的外部能力扩展方式,它通过让模型调用外部函数,来感知和影响真实世界.其核心作用是解决静态知识过时、复杂计算易出错、无法直接执行操作等痛点,实现实时数据查询、精确计算、自动化操作等模型原生无法完成的任务.具体实现上,平台会先向大模型传递用户请求与可用工具列表,由模型根据用户意图选择合适工具并生成调用参数,再由平台执行调用并获取结果,最终由模型将结果整理为自然语言输出,整个过程中,大模型负责决策与归纳,工具负责执行具体功能,平台则承担转发与执行调用的角色。6.什么是MCP
MCP(Model Context Protocol,模型上下文协议)是一种工具接入的统一标准,它旨在解决不同大模型平台(如OpenAI、Anthropic、Google)工具接入规范不统一的问题,就像手机统一采用Type-C接口一样,让工具开发者只需按MCP规范开发一次,就能在所有支持该协议的平台上使用,大幅提升了工具的通用性和开发效率。
7.Agent Skill是什么
Agent 是一种能自主规划、调用工具并持续推进任务直至完成的自主决策系统,核心能力包括多步骤推理、工具选择与流程控制,常见的构建模式有 ReAct、Plan and Execute 等,典型产品如 Claude Code、Codex 等。而 Agent Skill 是给 Agent 的任务定制说明文档,它由元数据层(名称、描述)和指令层(目标、执行步骤、判断规则、输出格式等)构成,通常以 `SKILL.md` 形式存放在特定目录中,仅在用户问题与技能相关时才会被加载,用于规范 Agent 的任务执行流程与输出格式。如上图AI回答问题的初步解析流程