第一节《综述》
一、岗位适配
(一)业务岗 / 运营岗
核心能力:
l重点掌握 Agent、RAG、工作流编排等应用技术,理解不同工具的适用场景(如 RAG 适合企业知识库问答)。
l需补充编程思维,明确技术边界(如哪些任务当前技术无法实现),关注行业案例中的需求拆解逻辑。
l"AI 原生工具链" 能力要求,需掌握AutoGPT 类 Agent 开发(如使用 Microsoft Copilot Studio 构建智能体)、多模态 RAG(文本 + 图像 + 视频混合检索)及实时工作流编排(通过 LangChain 实现 API 级联调用)。
案例:DeepSeek 在电商客服场景中,通过 RAG 技术结合企业商品知识库,实现订单查询、售后问题的秒级响应,相比传统规则引擎效率提升 80%。其工作流编排工具支持无代码拖拽,业务岗可快速配置 “用户咨询→意图识别→知识库检索→答案生成” 流程,无需依赖技术团队。
技术边界:当前大模型仍无法处理跨模态逻辑推理(如 "分析财报数据并生成可视化图表" 需人工干预;在跨语言复杂逻辑推理(如多语言合同条款对比)仍存在局限,需结合人工审核,业务岗需明确此类场景的技术落地优先级。
(二)ToB 销售 / 解决方案专家 / 项目经理
核心能力:
l将AI技术框架(如 LLM 训练流程、模型能力差异)转化为业务语言,能向客户清晰表述 AI 方案的价值(如 “通过 SFT 微调提升客服模型的行业术语理解”)。
l需大量练习技术内容的通俗表达,避免使用晦涩术语,增强逻辑表述能力。
案例:某制造业解决方案专家通过DeepSeek-V3的动态学习率调整机制,向客户证明 "在 H800 显卡集群上训练工业质检模型,成本仅为竞品方案的 1/10"。
工具:使用PaddleNLP生成客户定制化技术白皮书,支持自动插入行业数据对比图表。
(三)技术岗 / AI 产品经理
核心能力:
l需精通混合训练架构(如闭源模型 + 私有数据 + 开源工具),掌握模型压缩技术(如 DeepSeek 的极端量化策略)。
l深入理解模型训练全流程(预训练、微调、强化学习),掌握不同模型(如 Llama、GPT)的技术差异(如 Llama 的 DPO 与 GPT 的 PPO)。
l关注数据标注、算力成本等工程化细节,能评估技术方案的可行性(如中小公司是否适合自研模型)。
üLlama 3 405B:训练消耗 15 万亿 Tokens,使用 16,000 张 H100 显卡,成本约 7,500 万美元。
üDeepSeek-V3:训练成本 557.6 万美元,仅需 2048 张 H800 显卡,性能接近 GPT-4。
ü决策框架:中小公司优先选择Llama 7B+QLoRA 量化(成本降低 80%),大型企业可尝试GPT-4 Turbo + 私有领域数据混合训练。
(四)自媒体工作
1.AI 内容生产链:
l内容生成:Midjourney(文生图)、Runway(文生视频)、DeepSeek-R1(多轮对话)。
l脚本生成:用搜狐简单 AI一键生成短视频脚本。
l视觉设计:通过DALL·E 4生成个性化封面。
l数据分析:利用矩大阵的情感分析系统,自动识别评论中的负面舆情并生成回复建议。
l效率提升:飞书多维表格集成 DeepSeek-R1,支持批量生成文案、自动标注数据。
l分发优化:通过 AI 分析用户画像(如抖音用户偏好),结合热点事件(如大厂裁员)快速调整内容策略。
l变现模式:创作者基金、知识付费(如 AI 影视教程)、政企合作(如杭州余杭古城 AI 文旅项目)。
2.矩阵运营:
l跨平台适配:使用AI 智能矩阵营销工具自动匹配各平台流量规则(如抖音侧重特效模板,小红书生成图文混合内容)。
l合规管理:接入AI 内容审核 API,自动检测敏感词和虚假信息,避免平台封禁。
案例:佛山创业者龙新远团队利用可灵、即梦等视频大模型,在 2024 年推出 AI 原创 MV《阿嬷》,播放量破 3700 万,并在 2025 年推出 AI 短剧《35 岁社畜默示录》,实现 “2 人 40 天完成 40 分钟科幻剧” 的效率突破。
3.核心方向
技术科普与垂类深耕案例:CSDN 博主通过 AI 动物融合视频(如 “猫身狗首” 猎奇内容)实现单月涨粉 5.5 万,结合宠物用品带货月营收超 1.4 万元。
工具教学:演示 RAG 框架(如 LangChain)在企业知识库中的应用,或 AI 绘画工具(如 Stable Diffusion)的参数调优。
4.风险与合规
内容审核:需规避虚假信息(如 AI 生成的 “真实动物融合” 误导用户),部分平台要求标注 AI 生成内容。
版权问题:商用需确保素材来源合法(如付费素材库或开源协议模型)。
(五)自主创业
垂直领域工具:
lManus:通用 AI 代理,可独立完成简历筛选、房产研究等复杂任务,已服务 500 + 中小企业。
lRD.AI:AI 原生学习平台,将书籍转化为互动播客内容,获红杉中国投资。
l模型即服务:
lDeepSeek-R1:为飞书多维表格提供智能问答模块,使复杂任务完成度从 78% 提升至 92%。
lMoEaaS:混合专家模型云服务,帮助企业以 1/5 成本实现 GPT-4 级推理能力。
l风险提示:需关注数据合规(如《生成式 AI 服务管理暂行办法》)和算法可解释性(金融、医疗领域强制要求)。
AI 硬件与基础设施:
案例:景嘉微推出预置 DeepSeek-R1 的全国产 AI 服务器,支持 200 + 用户并发访问,单机算力达 2000 TOPS,适用于特种行业。
市场趋势:AI 眼镜(如 Ray-Ban Meta)、AI 耳机(如实时翻译)、AI 陪伴玩具(如情感交互)成为投资热点,但初创公司需警惕大厂竞争。
低代码 / 无代码平台:
工具:Coze(AI Agent 搭建)、LangChain(RAG 框架)、Hugging Face Spaces(模型部署)。
案例:某团队通过 Coze 搭建客服机器人,结合企业知识库实现自动问答,但需注意 “Demo 陷阱”,核心竞争力仍在底层模型优化。
技术方案:
l数据标注:拓维信息推出搭载 DeepSeek 的智能数据标注一体机,支持私有化部署,满足金融、医疗等敏感领域需求。
l轻量化微调:使用 Llama 7B 等轻量级模型,结合行业数据(如法律合同)训练垂直模型,成本较闭源方案降低 80%。
关键挑战:
l技术门槛:中小公司自研模型需平衡算力成本(如 Llama 3 训练消耗 16000 张 H100 显卡)与数据标注效率(如 Reward Model 需数万条偏好数据)。
l商业化验证:AI Agent(如 OpenAI Operator)虽能执行任务,但需解决隐私问题(如信用卡信息需人工确认)。
(六)职业发展提示
1.面试关键:
案例学习:掌握 “模型训练成本”相关数据(如 Llama 3 训练消耗 15 万亿 Tokens,GPT-4 单次训练成本超 1 亿美元),能对比不同模型的性价比(如 Llama 适合中小公司,GPT 适合快速验证场景);掌握 "DeepSeek-V3 训练成本仅为 Llama 3 的 1/10" 等数据,说明技术选型优势。搜寻学习案例展示技术落地能力,强调 “数据标注格式”(如问答 vs 纯文本)对模型效果的影响。
项目经验:展示 " 用Gradio 5快速搭建 AI 应用原型 " 等实操案例,证明技术落地能力。
2.核心能力矩阵:
岗位类型 | 技术层 | 应用层 | 商业层 |
技术岗 | 精通模型训练全流程 | 掌握 DeepSeek 压缩技术 | 评估算力成本效益比 |
业务岗 | 理解 RAG/Agent 原理 | 构建多模态工作流 | 量化 AIROI |
创业者 | 熟悉开源生态工具链 | 开发垂直领域 AI 产品 | 设计合规商业模式 |
(七)避坑指南
避免 “唯参数论”:理解 500B 参数以下模型性能随参数增长提升,超过后需依赖算法优化(如 MoE 混合专家模型)。
警惕 “Demo 陷阱”:实操 Demo(如用 Coze 搭建客服机器人)仅为入门,核心竞争力在于理解底层原理(如为何需要 Reward Model 评估回答)。
数据隐私陷阱:使用闭源 API 可能导致客户数据泄露。
伦理合规风险:AI 生成内容需标注 "AI 创作",否则可能面临虚假信息诉讼。
替代方案:采用开源模型 + 私有化部署(如 Llama 3 + 本地服务器),确保数据主权。
二、大语言模型(LLM)训练核心流程
(一)预训练(Pre-training):奠定语言基础
预训练在大语言模型的发展中至关重要,它是模型从海量无监督数据中学习语言内在规律、语法结构、语义关系的核心阶段,为模型后续适应各类下游任务筑牢根基。在这一过程中,自回归学习是关键技术,它通过对大量文本数据的学习,使模型掌握人类语言模式。
1.核心机制
自回归学习基于上下文窗口展开工作,其原理是依据前文信息预测下一个词,即 “前 k 个 Token 预测第 k + 1 个 Token”。这一模式使模型能够学习到语言的连贯性和逻辑性。以 GPT-4o 为例,它的上下文窗口处理能力进一步提升,能够处理更复杂、更大量的文本信息,从而更好地捕捉文本中的长距离依赖关系和复杂语义。在实际应用中,从法律合同、学术文献到互联网上的各类文本,都可作为训练数据。如一份 8000 字的跨国贸易法律合同,通过特定规则能拆分为约 7000 条 “512Token + 1Token” 的数据,为模型学习语言模式提供丰富多样的样本。
2.数据与算力
预训练阶段消耗超过 95% 的训练资源。以 Llama 3 为例,其在两个定制的 24K GPU 集群上,基于超过 15 万亿 Tokens 的数据完成训练,训练数据集规模是 Llama 2 的 7 倍,代码量为 Llama 2 的 4 倍 。Llama 3 405B 版本训练时使用 16000 多张 H100 显卡,历经 45 天,仅算力成本就达数千万美元。通过大规模数据与算力投入,模型习得语言表达模式,包括语法规则、逻辑衔接等,积累通用知识,形成初步的 “接话茬” 能力,能连贯续写文本,但此时模型尚未针对具体任务进行优化。
3.技术突破
DeepSeek-V3
2024 年 12 月 26 日,杭州深度求索人工智能基础技术研究有限公司发布了 AI 模型 DeepSeek V3。这是一款自研 MoE 模型,在性能上实现了重大突破,生成速度相比 V2.5 模型提升了 3 倍,达到每秒吞吐量 60 token。它在 14.8T token 上进行预训练,总参数量达 6710 亿参数 MoE 架构,激活 37B。在多语言编程测试排行榜中,DeepSeek-V3 表现出色,超越了 Anthropic 的 Claude 3.5 Sonnet 大模型,仅次于 OpenAIo1 大模型。
在实际应用场景中,DeepSeek-V3 展现出强大的实用性。例如,深圳海关引入 “满血版” 671B 大模型 DeepSeek-R1 后,智能查验机器人实现了技术飞跃。在进口车厘子查验时,利用人工智能技术,能对水果品名、原产地、果园注册号等 5 项要素实现 “秒级” 智能比对。以往人工核验需 5 分钟的工作,如今查验机器人仅需 10 秒即可完成全流程作业,且该技术已覆盖近 60 种进口水果品类,识别精度高达 95%。在教育领域,普洱学院与中国电信普洱分公司基于 DeepSeek 人工智能技术搭建校园 AI 教育平台,嵌入智能问答功能,师生通过学校官网即可使用,显著提升了学习研究、信息收集等工作效率,目前该平台已投入试运行并向全校师生开放体验 。在价格方面,DeepSeek V3 输入 token 费用为每百万 2 元(缓存未命中时价格翻倍),输出 token 费用为每百万 8 元。2025 年 2 月,DeepSeek V3 完成海光 DCU(深度计算单元)中国化适配并正式上线,还陆续上架百度智能云千帆平台、国家超算互联网平台、腾讯云 TI 平台等 。
Llama 3
Meta 公司于 2024 年 4 月 19 日发布的开源大语言模型 Llama 3,在模型训练和功能上取得显著进展。它在两个定制的 24K GPU 集群上基于超过 15T 的数据完成训练,支持 8K 上下文长度,是 Llama 2 容量的 2 倍。Llama 3 提供 80 亿和 700 亿两种参数规模的预训练和指令微调版本,最小版本与最大版本表现相当。该模型首次引入计算机编码能力,不仅能够生成连贯、精准的文本,还能直接输出图像内容。Meta 官方称 Llama 3 的性能优于 Claude Sonnet、Mistral Medium 和 GPT-3.5,后续还计划推出参数超过 4000 亿的版本。目前,Llama 3 已用于升级 Meta AI 工具,并将整合到 Meta 旗下 Facebook、Instagram、WhatsApp 和 Messenger 等主要平台的搜索功能中,还将在亚马逊 AWS、Databricks、谷歌云等多个云平台推出。
GPT 系列
OpenAI 的 GPT-4o 作为 GPT-4 的升级版,在语言理解和生成能力上更进一步,上下文窗口进一步扩大,在复杂任务处理上表现更优。但如同其他通用大语言模型,虽经预训练具备基础语言理解能力,能理解文本含义、识别语言结构,可在面对用户提问时,难以主动且精准地按需回答,更多是延续前文内容续写 。自 2025 年 4 月 30 日起,GPT-4 在 ChatGPT 中退役,被 GPT-4o 完全取代,开发者仍可在 API 中调用 GPT-4 。此外,有消息称 OpenAI 准备发布 GPT-4.1 新模型,可能是 GPT-4o 多模态模型的改进版,还会发布尺寸更小的 GPT-4.1 mini 和 nano 版本 。OpenAI 在 2025 年推出的 GPT-4 Turbo with Vision 版,保留了原有 GPT-4 Turbo 的 128k 上下文窗口,模型训练数据截止日期更新为 2023 年 12 月,新增视觉功能,能够理解图像和视觉内容 。
总之,预训练阶段通过自回归学习等核心机制,借助大规模数据与算力,推动了像 DeepSeek-V3、Llama 3、GPT-4o 等大语言模型的发展,这些模型在技术上的突破为自然语言处理领域带来了新的活力与变革,也为后续的应用和优化奠定了坚实基础。
(二)有监督微调(SFT,Supervised Fine-Tuning):赋予任务能力
SFT 的核心目标是将预训练后的模型从通用的语言生成模式,转变为针对具体任务的导向模式。以企业应用场景为例,原本仅能进行文本续写的 “接话茬”模型,经过 SFT 后,可以被训练成能够准确回答具体问题的企业助手,为企业员工提供精准的业务流程指导 。这种转变极大地提升了模型在实际场景中的实用性,让模型能够满足不同领域、不同业务场景下的多样化任务需求。
1.数据与方法
SFT 依赖精心标注的 “Prompt+Response” 对形式的有标签数据。这种数据格式能够清晰地为模型呈现任务输入与期望输出之间的对应关系。例如:
Prompt:“我如何利用AI工具系统学习AI?”
Response:“以下是利用 AI 工具系统学习 AI 的分步指南,结合学习路径、工具推荐及实践方法,帮助零基础或进阶学习者高效入门:### 一、打好基础:构建 AI 核心知识框架……”
数据量级:通常数千至数十万条,远小于预训练数据(如 Open AI 使用数万条问答对),但需精准匹配目标任务,使模型学习到如何针对特定问题给出合理且有效的回答。
2.技术特点
在技术层面,SFT 通过调整模型参数,强化与特定任务相关的语言模式。例如,在训练过程中,引导模型优先输出结构化回答,如分步骤、分点的形式,而非自由散漫的文本,以提升回答的逻辑性和可读性。以解决复杂问题为例,模型可能会按照 “问题分析、解决方案步骤 1、步骤 2…… 总结” 的结构进行输出 。
典型案例:Llama 3 8B Instruct 版本
Llama 3 8B Instruct 版本通过 SFT 训练实现了功能的重大转变。在未进行 SFT 前,模型主要具备文本续写能力。经过 SFT 后,它能够处理代码生成任务,比如根据给定的功能需求,准确生成相应的代码片段;在逻辑推理任务中,也能够依据问题的条件和逻辑关系,推导出合理的结论 。例如,给定一个逻辑推理题 “如果 A 大于 B,B 大于 C,那么 A 和 C 的关系是什么?”,Llama 3 8B Instruct 版本能够通过 SFT 学习到的逻辑推理模式,准确回答 “A 大于 C” 。这充分展示了 SFT 在赋予模型特定任务处理能力方面的显著成效。
3.工具升级:
AutoTrain
Hugging Face 推出的 AutoTrain 是一款功能强大的自动化微调平台,它最大的优势在于支持零代码训练。这一特性使得没有深厚编程和机器学习背景的人员,如企业业务人员、教育工作者等,也能够轻松地对模型进行微调以适应自身的任务需求。例如,一位教育工作者想要训练一个能够自动批改学生作文的模型,他只需准备好包含作文题目(Prompt)和对应批改建议(Response)的标注数据,通过 AutoTrain 平台的简单操作界面,无需编写复杂的代码,即可完成模型的微调训练,从而快速得到一个专用于作文批改的定制化模型。
DeepSeek-R1
DeepSeek-R1 在微调技术方面取得了显著进展,尤其是在成本控制上表现突出。通过动态学习率调整技术,DeepSeek-R1 能够根据训练过程中的数据特征和模型收敛情况,实时调整学习率,避免了传统方法中因固定学习率导致的训练效率低下或模型过拟合等问题。这一创新使得微调成本从以往的千万级大幅压缩至百万级。例如,在某大型企业对客户服务模型进行微调时,采用 DeepSeek-R1 技术后,在保证模型性能的前提下,微调成本大幅降低,同时训练时间也有所缩短,极大地提高了企业在模型应用方面的投入产出比 。2025 年 1 月 20 日,DeepSeek 正式发布 DeepSeek-R1 模型并同步开源模型权重,其在数学、代码以及各种复杂逻辑推理任务上取得了媲美 OpenAI o1-preview 的推理效果 。众多企业和研究机构基于其开源权重进行微调,进一步推动了相关领域的发展 。
(三)奖励模型(Reward Model):评估回答质量
奖励模型在大语言模型的优化进程中扮演着关键角色,其核心功能是对模型生成的回答进行质量评估,从而为后续的模型改进提供重要依据。在实际应用场景中,模型的回答可能存在多种情况,如 “准确但冗长” 或者 “简洁但错误”,奖励模型能够有效区分这些回答的优劣,为强化学习环节输出合理的评分,引导模型生成更优质、更符合用户需求的内容。
1.数据标注方法
偏好数据(Preference Data):让人类标注员对同一 Prompt 的多个回答(如 4 个不同 Response)进行排序(如 A>B>C>D),生成 “成对比较” 数据(如 A 比 B 好、B 比 C 好),Open AI 早期通过肯尼亚低成本标注工(2美元/天)标注数万条此类数据。
分级标注:开源模型(如 Llama)为了优化标注效率,将比较分为 “远好于”“稍好于”“略微好于”“无差异” 四级,提升标注精度同时减少工作量。
2.技术挑战
需平衡标注成本与模型泛化性:标注数据需覆盖足够多的任务类型(如问答、生成、推理),否则 Reward Model 可能仅在特定类型任务上能够准确评估,而在新的、未涉及的任务类型上出现评估失效的情况。
例如,如果奖励模型的标注数据主要来源于医疗领域的问答任务,当面对金融领域的文本生成任务时,可能无法准确判断生成内容的质量优劣。因此,在实际构建奖励模型时,一方面要合理控制标注成本,避免过高的人力、物力投入;另一方面,要精心设计标注方案,确保标注数据的多样性和全面性,以提升奖励模型的泛化能力,使其能够在各种不同类型的任务中都能发挥有效的评估作用。
(四)强化学习(如 PPO):提升复杂能力
强化学习在大语言模型的优化进程中发挥着关键作用,旨在赋予模型更强大的复杂任务处理能力,推动其从基础的语言理解迈向复杂情境下的智能决策与精准输出。
1.Open AI 核心技术(以 GPT 为例)
PPO(近端策略优化):通过数千次循环训练,让模型在生成回答时动态调整策略(如优先探索新答案或利用已知优质答案),显著提升推理、逻辑能力(如 GPT-4 在数学题正确率从 GPT-3.5 的 40% 提升至 67%)。如金融领域的风险评估、科学研究中的数据分析与假设验证等任务,GPT 模型借助 PPO 能够更精准地分析数据、推导结论,提供高质量的决策支持。
教练 - 运动员模式:在 OpenAI 的技术体系中,Reward Model 充当 “教练” 角色,对模型(“运动员”)生成的每个 Token 进行实时评分 。模型每输出一个 Token,Reward Model 便依据其内在的评估标准给出反馈,以此指导模型后续 Token 的生成策略 。例如,当模型输出“不” 这个 Token 后,根据 Reward Model 的评分反馈,模型在后续生成中选择 “推荐” 的概率会高于 “建议”,从而使生成的文本更符合逻辑与语义表达习惯 。这种模式使得模型在与 Reward Model 的持续交互中,不断优化自身的语言生成策略,提升回答的质量与准确性,以更好地满足用户的多样化需求。
2.开源模型的替代方案(以 Llama 为例)
DPO(直接偏好优化):因 PPO 技术难度高,开源模型采用简化方案,Llama 3 在优化过程中,通过 “循环六轮 SFT+DPO” 的流程来提升性能(如先生成 20 个回答,筛选 3 个优质回答再微调),在未使用 PPO 的情况下逼近 GPT-4 水平。例如,在 HumanEval 编码基准测试中,Llama 3 在代码任务上的通过率达 65% ,展现出 DPO 在提升开源模型复杂任务处理能力方面的有效性 。众多开发者基于 Llama 3 进行二次开发,在代码生成相关的应用场景中,能够借助其优化后的能力高效实现功能需求。
成本对比:Llama 3 仅标注成本达 5000 万美元(DPO 等优化流程需要收集、标注大量高质量的偏好数据来指导模型学习),而 Open AI 的 PPO 训练依赖更复杂的基础设施(如分布式训练框架)。与之相比,OpenAI 的 PPO 训练除了数据成本外,还高度依赖更复杂的基础设施,如分布式训练框架。这种框架能够支持大规模、高并发的模型训练,但搭建与维护成本高昂,需要投入大量的技术资源与资金。 Llama 和 OpenAI 不同的优化路径导致了在模型训练成本结构上存在显著差异,也反映了开源模型与闭源商业模型在发展过程中的不同侧重。
3. DeepSeek 的探索与实践
技术创新
DeepSeek 在模型优化中积极探索强化学习技术,采用动态学习率调整等方法提升模型训练效果。面对复杂任务时,模型能依据训练进展和数据特征自动调整学习率,不同阶段都能更高效学习。以自然语言处理中的文本摘要任务为例,通过动态学习率调整,DeepSeek 更快收敛到较优参数设置,生成的文本摘要能保留关键信息,语言更流畅、逻辑更清晰。这种技术创新提升了模型在复杂任务上的表现,还降低了训练成本,提高资源利用效率。
场景应用
在医疗领域,DeepSeek 参与构建的医疗辅助诊断系统利用强化学习优化信息处理流程。系统分析患者病历、症状描述等文本信息时,通过强化学习调整对不同信息的关注权重,精准给出诊断建议。诊断心血管疾病时,模型综合患者病史、心电图描述、血液检测结果等复杂信息,为医生提供参考价值高的诊断方向,辅助医生做更准确的决策。在工业制造领域,DeepSeek 助力企业优化生产流程管理。通过实时分析生产线上各类数据,利用强化学习调整生产调度策略,有效减少生产周期,提高生产效率。电子产品制造中,合理安排不同工序的启动时间与资源分配,整体生产效率提升明显。
三、开源模型 vs 闭源模型:技术路径与生态竞争
(一)核心差异
维度 | 闭源模型(如 GPT 系列) | 开源模型(如 Llama/千问/DeepSeek) |
训练流程 | 严格遵循 “预训练→SFT→Reward Model→PPO” 四步,PPO 循环数千次,强化推理能力 | 简化强化学习,采用 “多轮 SFT+DPO” 替代 PPO(如 Llama 循环六轮 SFT+DPO),依赖更多数据标注(如 5000 万美元标注成本) |
技术优势 | PPO 显著提升逻辑推理(如 GPT-4 在奥数题正确率 80%+),闭源生态(如 Assistants API)集成度高 | 开源可定制(如企业可下载 Llama 微调),成本低(无需支付 API 费用),但推理能力略弱(同等参数下数学题正确率低 10%-15%) |
数据标注 | 早期依赖低成本标注工(如肯尼亚 2 美元 / 天),后期引入自动化标注工具 | 采用分级标注提升效率(如 “远好于” 分级),但整体标注成本更高(如 Llama 3 标注成本超 5000 万美元) |
训练成本 | 单次训练超 1 亿美元 | DeepSeek-V3 仅 557.6 万美元 |
推理速度 | 80 Token/s(A100) | 12.75 Token/s(L4 显卡) |
合规性 | 数据需上传云端,存在隐私风险 | 支持私有化部署,符合金融 / 医疗监管 |
(二)生态格局
1.闭源阵营
代表:Open AI(GPT 系列)、百度(文心一言)、阿里(通义千问)。
优势:
提供成熟 API 服务,如 Function Calling、Code Interpreter 等,能快速落地简单场景,像 GPT-4o 的图像生成功能可用于设计海报、邀请函等。2025 年 3 月 26 日,OpenAI 推出 GPT-4o 原生图像生成功能,采用统一自回归架构,实现文本、代码、图像一体化处理,用户上传客厅照片后可要求重新布置家具,模型能基于原始图像空间结构二次创作。
GPT-4 Turbo 支持直接调用外部 API,简化开发流程。此外,GPT-4o 在写作、编码、STEM 等方面持续超越 GPT-4,最近的升级进一步改进了指令跟踪、问题解决和对话流程。
ChatGPT 用户数增长迅速,截至 2025 年 2 月,周活跃用户数已突破 4 亿,相比 2024 年 8 月的 2 亿实现翻倍,仅用六个月,其移动应用访问量过去六个月增长 55.7%,从 2024 年 7 月的 24.4 亿次跃升至 2025 年 1 月的 38 亿次,92% 的《财富》500 强公司正在使用其产品,API 调用量在 GPT-4o mini 发布后翻倍。。
局限:
数据隐私风险(需上传数据至云端),定制化成本高(无法修改底层模型)。
2.开源阵营
代表:Meta(Llama 系列)、中科院(GLM)、Hugging Face 生态。
优势:
支持本地部署(保护企业数据),可深度微调(如医疗企业用自有数据训练 Llama),适合垂直领域(如法律合同解析)。例如,Spotify 用 Llama 提升推荐精准度,AT&T 优化客服效率,DoorDash 加速物流调度。截至 2025 年 3 月 18 日,Llama 下载量正式突破 10 亿次,较 2024 年 12 月的 6.5 亿次增长 53%。
基于 Llama 的衍生模型众多,如 xAI 的 Grok 模型借鉴 Llama 架构优化对话生成能力,Hugging Face 的 Llama - Adapter 在自然语言处理任务中表现卓越,印度初创公司 Krutrim 基于 Llama 推出支持超 10 种地方语言的多语言 AI 助手。
局限:技术门槛高(需掌握模型部署、微调工具),生态工具链(如 RAG 框架)成熟度低于闭源 API。
(三)关键趋势
数据价值凸显:无论开源 / 闭源,领域数据(如金融财报、医疗病历)成为核心竞争力,企业需积累 “偏好数据”(如用户对回答的评分)用于微调。
混合架构:中小公司更倾向开源模型 + 轻量化微调(如使用 Llama 7B 而非 405B),大型企业可尝试闭源模型 + 私有数据混合训练(如用 GPT-4 处理通用问题,自有模型处理敏感数据)。
成本优化:Llama 3-8B 在 GCP 上的推理成本仅为 GPT-4 的 1/25。
四、学习AI重点强调与实践建议
(一)核心概念优先级
1.必懂框架
LLM 训练四阶段(预训练→SFT→Reward Model→强化学习)的逻辑关系是掌握 AI 模型训练的基础。预训练让模型学习通用语言模式;SFT 使其针对特定任务输出;Reward Model 则是关键的质量评估环节,“能评价好坏是优化的前提”,它为后续强化学习提供评分依据,引导模型生成更好的回答。
开源与闭源模型技术差异:以 PPO 和 DPO 为例,PPO 是 OpenAI 在 GPT 系列模型中使用的近端策略优化算法,通过复杂训练提升模型推理等能力。而开源模型 Llama 3 采用 DPO(直接偏好优化),由于 PPO 技术难度高,Llama 3 通过 “循环六轮 SFT + DPO”,如先生成多个回答再筛选优质回答微调,在未用 PPO 的情况下,其在代码任务等方面通过率达 65%,接近 GPT - 4 水平。
RLHF(基于人类反馈的强化学习):作为 OpenAI 训练 GPT - 4 的核心方法,RLHF 通过收集人类对模型输出的反馈,以此优化奖励模型,再利用奖励模型指导强化学习过程,使模型生成的回答更符合人类偏好和期望,例如在生成文本时更具逻辑性、准确性和有用性。
MoE(混合专家模型):在千亿参数模型中,MoE 通过子模型分工提升效率。不同子模型(专家)负责处理特定类型或领域的信息,模型根据输入数据的特点动态分配任务给最合适的子模型,从而提升整体运行效率和处理复杂任务的能力。
2.延伸学习
技术文档:搜索 “Llama 3 技术报告”“Open AI RLHF 论文”,重点关注数据标注流程与模型迭代逻辑。如如何筛选超 15T 数据进行训练,以及模型迭代逻辑,像怎样通过 SFT 和 DPO 提升性能;在 RLHF 论文里,了解人类反馈收集方式、奖励模型训练细节等,从理论层面加深对 AI 模型的理解;通过斯坦福 CS224N掌握 Transformer 原理等。
实战平台:访问 Hugging Face(无需科学上网)提供 Llama 3、DeepSeek 等模型的免费微调环境,体验开源模型 Demo(如千问 72B Instruct 的代码生成能力),直观感受模型效果;尝试用 Gradio 部署简单模型,从数据准备、模型选择到部署上线,在实践中掌握模型应用与部署技巧;用Megatron-LM复现 Llama 3 训练流程;CSDN 学习AI 大模型工程师涵盖数学基础、框架使用及行业应用全流程相关课程;参与Kaggle NLP 竞赛,积累项目经验。
3.思考题拆解
模型智能 vs 人类智能:从训练机制(模型依赖统计规律,人类依赖逻辑推理)、学习方式(模型被动拟合数据,人类主动探索)角度分析差异。
瓶颈分析(算力/数据/算法):当前行业中,H100 显卡等算力资源缺货,优质标注数据稀缺。对中小公司而言,数据标注效率可能是主要瓶颈。以 Reward Model 所需的偏好数据标注为例,标注过程耗费人力、时间且需专业知识,相比之下,虽然算力成本高,但云服务等方式可一定程度缓解算力压力,所以数据标注可能限制中小公司 AI 模型优化与发展。
五、总结:从框架到实践的核心价值
本课程聚焦于拆解大语言模型训练框架,从预训练、微调再到强化学习,全方位展示了模型的构建流程,同时剖析了开源生态在追赶先进技术过程中的发展路径。这一系列内容旨在助力 AI 学习者搭建起从技术底层原理到实际落地应用的完整知识体系,构建全面的全局视角。其核心价值体现在以下关键层面:
理清技术边界:精准界定技术应用范畴,明确哪些任务借助现有工具即可快速达成。比如在信息检索与简单文本处理场景中,RAG(检索增强生成)技术能高效整合外部知识,结合 SFT(有监督微调)对模型进行针对性优化,便能迅速实现业务需求。而在诸如复杂推理场景,如医疗领域的疑难病症诊断推理、金融领域的深度风险评估等,往往需要定制化训练,以满足对准确性和可靠性的严苛要求。
把握生态选择:充分考量企业规模与实际需求,为技术选型提供清晰指引。对于追求快速上线产品、快速占领市场的企业,尤其是资源相对有限的中小企业,选择闭源 API 是较为合适的策略,如使用 OpenAI 的 GPT 系列 API,能够利用其成熟稳定的模型能力,快速搭建应用。而对于有深厚技术积累、期望深度定制模型以契合独特业务流程和数据特点的大型企业,开源模型则提供了广阔的发挥空间,像基于 Llama 系列模型进行二次开发,深度定制符合自身需求的模型 。通过合理选择,有效规避技术选型过程中可能出现的误区,确保技术投入产出比的最大化 。
聚焦数据价值:深刻认识到在模型优化进程中,数据是核心驱动力。“偏好数据标注” 对于构建精准的奖励模型意义重大,如在训练对话模型时,通过大量的偏好数据标注,模型能够理解用户对于回答风格、内容准确性等方面的偏好,从而生成更贴合用户期望的回答 。“领域数据积累” 同样关键,以医疗行业为例,长期积累的病例数据、诊断记录等领域数据,经过整理和标注用于模型训练,能够显著提升模型在医疗场景下的诊断辅助、疾病预测等任务的准确性 。这表明,相较于单纯依赖高成本的算力提升或盲目追求大规模模型,重视数据的收集、整理与标注,才是切实提升模型效果的关键所在 。
展望后续课程,将围绕神经网络、Transformer、多模态技术等前沿领域深入展开。建议学员紧密结合本次综述所涵盖的核心概念,如 LLM 训练阶段的逻辑关系、各类技术名词含义等,提前梳理知识脉络,构建起扎实的知识基础,为即将开启的深度学习之旅筑牢根基,以便更好地理解和掌握后续课程中的复杂技术内容,在 AI 学习之路上稳步迈进 。
上述内容更新后生成脑图:
六、名词解释
RAG(检索增强生成):
定义:结合外部知识库(如企业文档)和大模型生成内容,提升回答准确性。
案例:某银行客服系统通过 RAG 调用内部政策库,使问题解决率提升 25%。
MoE(混合专家模型):
定义:将模型拆分为多个子模型("专家"),根据任务动态选择最优组合。
优势:降低千亿参数模型的计算量,如 DeepSeek-V3 通过 MoE 节省 40% 算力。
DPO(直接偏好优化):
定义:开源模型替代 PPO 的简化方法,直接优化人类偏好数据。
效果:Llama 3 通过 DPO 在代码任务上通过率达 65%,接近 GPT-4 水平。
PPO(近端策略优化):
定义:闭源模型强化学习的核心算法,通过动态调整策略提升推理能力。
成本:GPT-4 的 PPO 训练依赖分布式框架,成本超 5000 万美元。
Agent(智能体):
定义:能自主决策、执行任务的 AI 程序,如 Manus 可独立完成股票分析。
技术:结合 AutoGPT、LangChain 实现目标拆解和工具调用。
Token:
定义:文本分割的最小单元,模型会将其分割成一个个 Token 进行理解和处理。如 "我爱中国" 可拆分为 "我"" 爱 ""中国" 三个 Token。
计算:1000 Token≈500 汉字,影响模型输入输出成本。
Embedding:
定义:将 Token 转化为向量(如 [0.1, -0.3, 0.7...]),便于模型理解语义关系。
应用:每个 Token 被映射为一个数值向量,向量间的距离反映 Token 语义的相似度,通过余弦相似度计算文本相关性,用于搜索和推荐系统。如 “苹果” 和 “香蕉” 的 Embedding 向量在空间中的距离,能体现它们在语义上同属水果类别的相近关系。
自回归:
定义:逐个生成 Token,依赖前文内容。以 GPT - 4 为代表,模型每次输出一个字,逐个生成 Token,基于前文生成下一个 Token,从而形成连贯文本。在续写故事时,模型根据已写内容不断自回归生成后续情节。
局限:长文本生成速度慢,易出现逻辑断层。
上下文窗口:
定义:决定了模型能处理的最大文本长度,例如 GPT - 4 Turbo 支持 125k Token(约 6 万字),意味着它能处理较长篇幅的文本,在处理学术论文、长篇报告时更具优。
影响:窗口越大,处理复杂任务能力越强,但对硬件要求越高。
SFT(有监督微调):
定义:用标注数据(如 "问题 - 答案" 对)训练模型,使其适应特定任务。
案例:Llama 3-8B 通过 SFT 从 "纯续写" 变为能处理代码生成。
Reward Model:
定义:评估模型回答质量的辅助模型,用于强化学习。
标注:需人类对多个回答排序,生成 "成对比较" 数据。
混合训练:
定义:结合闭源模型(如 GPT-4)和私有数据,提升领域性能。
应用:某医疗企业用 GPT-4 处理通用问题,自有模型处理敏感病历。
量化:
定义:降低模型参数精度(如从 FP32→FP16),减少计算量。
效果:Llama 3-8B 量化后可在单卡设备运行,成本降低 80%。
私有化部署:
定义:将模型部署在企业本地服务器,保护数据隐私。
场景:金融、医疗等高敏感行业优先选择。
AI 伦理:
定义:规范 AI 开发和使用的道德准则,如避免算法歧视、保护用户隐私。
案例:某银行因 AI 贷审算法歧视特定群体被罚 500 万元。
生成式 AI 服务管理暂行办法:
定义:中国 2023 年实施的法规,要求 AI 生成内容标注 "AI 创作",保护数据隐私和知识产权。
影响:企业需确保 AI 生成内容合规,否则面临法律风险。
闭源模型:
定义:由企业或机构封闭开发、不公开代码的模型,如 GPT-4。
优势:性能领先、生态成熟,但成本高且不可定制。
开源模型:
定义:代码公开、可自由使用的模型,如 Llama 3。
优势:成本低、可定制,但技术门槛高。
数据标注:
定义:为训练数据添加标签或注释,如将图像中的物体框选标注。
案例:某数据标注工作室为自动驾驶公司标注道路场景,提升模型识别准确率。
AI 原生工具链:
定义:专为 AI 开发设计的工具集合,如 AutoGPT、LangChain。
应用:通过 AI 原生工具链快速构建智能体和工作流。

第二节 神经网络与机器学习基础
一、人工智能模型基础:从分类问题说起
模型本质:人工智能模型本质是 数学公式与参数的组合,核心功能是解决 “分类问题”—— 即从 n 个选项中选择最可能的答案(如判断图片是数字 “3” 还是 “5”)。输出形式:输出 n 个概率值,概率最高的选项即为模型判断结果。
所有 AI 模型的设计可拆解为 两个核心步骤,以 “区分苹果与梨”(二分类)和 “手写数字识别”(图像分类)为例:
1. 第一步:设计公式结构 —— 定义任务的数学规则
核心逻辑:将现实问题转化为数学公式,明确 “输入如何计算出输出”。
二分类案例:区分苹果和梨时,模型通过输入 “身长” 和 “体重” 两个特征,输出属于苹果或梨的概率。
输入:二维数据(身长 x,体重 y)。
公式结构:线性方程 (y = ax + b),用直线划分平面,点在直线上方为梨,下方为苹果。
手写数字识别案例(MNIST 数据集):
输入:28×28 像素→784 维向量(每个像素值 0-255)。
公式结构:多层神经网络,每层执行 “加权求和 + 非线性变换”,逐层提取特征(如边缘检测→行边缘统计→数字分类)。
关键结论:
简单任务(如二分类)可用线性方程,复杂任务(如图像、文本)需非线性的神经网络。神经网络是 “懒人公式”:人类定义固定计算结构(如加权求和),机器自动填充参数。
2. 第二步:确定参数值 —— 从随机到最优的迭代过程
简单模型(如线性方程):
初期参数随机赋值(如 \(a=3, b=-5\)),手动调整效率低,仅适用于极简单场景。
复杂模型(如神经网络):
参数规模庞大(手写数字网络含 63 万参数),必须通过机器学习自动优化,核心是 “数据驱动的参数迭代”。
二、神经网络:像人脑一样 “分层思考” 的计算器
1. 神经元:模拟人脑的信号处理单元
模仿人脑神经元的信号传导,其工作流程(以手写数字识别为例):
每个 “神经元” 接收上游 784 个像素值,通过加权求和(如 (z = w1x1 + w2x2 + ……+w{783}x{783})和非线性变换(激活函数),决定是否传递信号。
多层神经元组成 “神经网络”,将结果二值化(非零即一),逐层提取数据特征(从底层像素到高层抽象特征)。
信号传递:输出结果至下一层神经元,逐层计算直至输出层。
核心作用:每个神经元类似 “过滤器”,通过权重和激活函数筛选有效信号,排除无关信息(如背景噪声)。
2. 层次结构:从 “像素” 到 “数字” 的三层蜕变
层次 | 作用 | 输入 / 输出 | 案例(手写数字 “3”) |
输入层 | 原始数据输入 | 784 维像素向量 | 28×28 像素的黑白分布 |
中间层 1 | 提取基础特征 | 784 维→边缘特征 | 计算每个像素是否是数字边缘(如 “竖线边缘”,如 “左边像素减右边像素” 突出物体边缘) |
中间层 2 | 抽象统计特征 | 784 维→28 维 | 统计每行边缘数量(如第 4 行有 3 个边缘点) |
输出层 | 生成最终结果 | 28 维→10 个概率 | 输出 “3” 的概率为 91%,其他数字概率总和 9% |
3.关键概念
激活函数:引入非线性变换(如将负数设为 0,正数保留),使神经网络能处理复杂特征。
深度神经网络:中间层越多,提取的特征越抽象(如从 “边缘” 到 “笔画” 再到 “数字整体形状”)。
4.关键优势:
自动特征提取:无需人工设计 “数字必须有闭合区域” 等规则,网络自动从像素中学习到 “3 有两个闭合区域” 等特征。
维度压缩:通过中间层将 784 维像素压缩到 28 维,聚焦关键信息(如 “边缘分布” 比单个像素更有意义)。
三、机器学习训练:让模型从 “乱猜” 到 “精准” 的三步法
1.训练目标
通过大量数据调整模型参数,使模型输出的概率尽可能接近真实答案(如手写数字识别中,让正确数字的概率接近 100%)。
2.训练三步骤(以苹果 / 梨分类为例)
2.1 第一步:随机初始化参数 —— 先猜一个答案
随机设定初始参数(如(a=3, b=-5)),得到初始直线 (y=3x-5)。
现状:这条直线可能把所有梨误判为苹果,正确率仅 50%,需进一步优化。
2.2 第二步:计算误差 —— 用损失函数衡量 “猜得有多错”
损失函数定义:
平方误差:计算每个数据点到直线的垂直距离平方和(距离越远,误差越大)。
公式:\(\text{总误差} = \sum(ax + b - y)^2\),其中 \((x,y)\) 是真实数据点。即用 “总误差” 衡量模型预测与真实数据的差距。误差越小,模型越准确。
案例计算:
苹果数据点(身长 2.5 米,体重 45 公斤)代入得误差 42.5²=1806.25,所有数据点误差相加得到总误差 113 万+。
核心意义:误差是模型优化的 “指南针”,告诉我们当前参数有多差。
2.3 第三步:梯度下降调整参数 —— 像走山路一样找下山方向(梯度下降)
单参数调整(以 a 为例):
固定 b,绘制 “a 变化 - 总误差” 曲线,发现 a 增大时总误差减小(如 \(a=3→9\),总误差从 113 万→88 万);每次调整步长逐渐减小(如从 + 6→+3),避免错过最优解。
通过数学计算确定参数调整方向(如 a 增大、b 增大),使总误差逐步减小。每轮迭代后重新计算误差,直到误差不再明显下降(收敛)。
多参数优化(神经网络场景):
反向传播:从输出层误差反向计算每一层参数的 “梯度”(即参数变化对误差的影响),先调最后一层参数,再调倒数第二层,逐层优化(如手写数字网络的 63 万参数)。
收敛:经过数千次迭代,总误差稳定在 44 万,模型在训练数据上的正确率提升至 90%+。
四、关键概念对比:用生活例子轻松理解
1. 线性模型 vs 非线性模型 —— 直线 vs 曲线的区别
线性模型(如直尺):只能画直线,适合区分 “胖瘦分明” 的数据(如苹果 / 梨的线性可分场景)。
非线性模型(如曲线尺):能画曲线,适合区分 “交叉分布” 的数据(如手写数字 “3” 和 “5” 的曲线边界)。
2. 损失函数 —— 模型的 “错题本”
每道 “题”(训练数据)的误差记录在错题本上,总误差是所有错题的分数总和,目标是让这个总和越来越小。
梯度下降 —— 蒙眼下山的策略:把总误差想象成山的高度,参数是蒙眼者的位置。每次通过计算 “往哪个方向走能最快下山”(梯度方向),逐步调整位置,最终到达山脚(最优参数)。
五、核心认知与岗位协作
1.典型场景
图像识别:如手写数字识别、人脸识别,通过多层神经网络提取图像特征。
自然语言处理:如聊天机器人,将文字转化为向量后用神经网络预测下一个词的概率。
2.岗位分工(以 AI 项目为例)
算法工程师:设计神经网络结构(如确定中间层数、激活函数),优化训练算法。
产品经理:需理解模型能力边界(如 “模型擅长分类,但无法解释决策过程”);明确业务目标(如 “识别准确率达 95%”),协调数据标注与算力资源。
数据标注师:为训练数据打标签(如标注 “这张图片是数字 3”),是模型学习的 “标准答案” 来源。
3.技术沟通核心认知:
数据是模型的 “老师”:模型通过训练数据学习,标注质量直接影响效果(如错误标注会让模型学会错误特征)。例:手写数字识别中,若 “3” 被错标为 “8”,模型会错误地将 “3” 的特征与 “8” 关联。
模型复杂度匹配任务难度:简单任务(如二分类)用线性模型或浅层网络,复杂任务(如多语言翻译)需深层网络 + 大量参数。
误区:并非 “参数越多越好”,需平衡算力成本(如 63 万参数的手写数字网络无需万亿级参数)。避免说“用最好的模型”,而是“根据数据分布选择线性/非线性模型”。
六、总结
模型本质:不管多复杂的 AI 模型(如 ChatGPT、AI 画图工具),本质都是 “神经网络(分层提取特征)+ 机器学习(用数据调参优化)” 的组合,区别只是处理的数据类型(图/文/视频)和任务目标(分类/生成/翻译)不同。
神经网络:像人脑分层思考的 “万能计算器”,通过多层 “数字加权计算 + 非线性变换”分层处理数据,自动从数据中提取特征(比如从图像像素中识别边缘,从文字中提取语义)。
机器学习:让计算器 “从错误中学习” 的方法,用 “损失函数” 计算猜错的代价,通过 “梯度下降” 调整参数,让计算器在特定任务上越来越准(比如识别手写数字)。(通俗理解为:用数据告诉模型 “哪里错了”,让模型自己调参数改错。)
应用价值:从简单的 “区分猫狗” 到复杂的 “图文互生成”,底层逻辑一模一样 —— 用神经网络分层处理数据,用机器学习通过数据调参。懂原理就能快速理解各类 AI 技术。
岗位门槛:理解基本概念是进入 AI 领域(产品、运营、算法)的基础,避免 “鸡同鸭讲” 的协作低效。
七、两个关键技术问题
1.为什么激活函数必须是非线性的?
类比:如果每层计算都是 “1+2=3,再 ×2=6” 这种线性运算,多层网络相当于单层放大(如 1+2=3,再乘以 2=6,等价于直接 1×2+2×2=6),无法处理 “只有 A 和 B 同时满足才触发” 的复杂逻辑(如 “只有同时满足两个条件才触发”)。
非线性函数(如 “大于 0 才保留”)让网络能组合多层特征,处理复杂问题(比如 “同时识别眼睛和鼻子才判断是人脸”)。
2.梯度下降为什么要反向传播?
类比:组装电脑后屏幕不亮,不会乱换零件,而是从屏幕倒推显卡、主板等层层排查问题。模型训练时从最终误差反推每层参数的问题,精准调整(比如发现某个权重让结果错误,就针对性改小),避免盲目试错。
八、名词解释
1. 神经网络
定义:模仿人脑神经元结构的多层计算模型,通过 “加权求和 + 非线性变换” 逐层提取数据特征。 通俗理解:像人脑 “分层思考” 的万能计算器。
工作机制:每层神经元接收上游数据,通过权重(如 (w1, w2))计算和激活函数(如 “大于 0 保留”)筛选有效信号,逐层提炼特征(如从图像像素→边缘→数字形状)。
优势:无需人工设计规则,自动从数据中学习抽象特征(如 “3” 的笔画结构),适用于图像、文本等复杂任务。
2. 机器学习
定义:通过数据训练调整模型参数,让模型从 “乱猜” 到 “精准” 的方法。通俗理解:让计算器 “从错误中学习”。
核心步骤:
随机初始化参数:先猜一组参数(如直线方程 (y=ax+b) 中的 (a=3, b=-5))。
计算误差(损失函数):用 “错题本” 记录每个数据点的预测错误,总误差衡量整体错误程度。
梯度下降调参:像 “蒙眼下山” 一样,根据误差反推参数调整方向,逐步减小错误。
3. 激活函数
定义:神经网络中引入非线性变换的函数(如 ReLU、Sigmoid)。
为什么重要:若每层都是线性计算(如加减乘除),多层网络等价于单层,无法处理复杂逻辑(如 “同时满足两个条件才触发”)。
类比:非线性函数像 “过滤器”,只允许特定信号通过(如将负数设为 0,保留正数),让神经网络能组合多层特征(如 “边缘 + 笔画→完整数字”)。
4. 损失函数
定义:量化模型预测误差的数学公式(如平方误差、对数误差)。 通俗理解:模型的 “错题本总分”。
作用:告诉模型 “猜得有多错”,例如计算每个数据点到预测直线的距离平方和,总误差越小,模型越准。
案例:区分苹果和梨时,损失函数用平方误差衡量所有数据点的预测偏离程度,指导参数优化。
5. 梯度下降
定义:通过数学计算确定参数调整方向,使损失函数最小化的算法。 通俗理解:“找下山最快的方向”。
过程:每次迭代计算参数变化对误差的影响(梯度),沿误差下降最快的方向调整参数(如增大 a、减小 b),逐步逼近最优解。
类比:蒙眼下山时,每一步都选择 “坡度最陡” 的方向,确保最快到达山脚(误差最小)。
6. 反向传播
定义:从模型输出误差反向推导每层参数调整量的技术。 通俗理解:“逐层排查问题”。
类比:组装电脑后屏幕不亮,从显示器倒推显卡、主板等层层定位故障。模型训练时从输出误差反推每层权重的贡献,先调最后一层参数,再调倒数第二层,高效优化大规模参数(如 63 万参数的手写数字网络)。
7. 线性模型 vs 非线性模型
线性模型:用直线(如 \(y=ax+b\))划分数据,适合简单任务(如区分 “胖瘦分明” 的苹果和梨)。
非线性模型:用曲线(如神经网络)处理复杂边界,适合手写数字识别(“3” 和 “5” 的像素分布需曲线区分)。
8. 维度压缩
定义:神经网络中间层将高维数据(如 784 维像素)压缩为低维特征(如 28 维边缘统计)。 作用:聚焦关键信息,去除冗余(如 “每行边缘数量” 比单个像素更能代表数字形状),提升计算效率。
9. 收敛
定义:模型训练中,损失函数不再明显下降,参数调整趋于稳定。 通俗理解:“误差不再变小,模型学会了”。
案例:经过数千次迭代,手写数字网络的总误差从 113 万降至 44 万,正确率达 90%+,此时认为模型收敛,可停止训练。
10. 数据标注
定义:人工为训练数据打标签(如标注 “这张图片是数字 3”)。 重要性:数据是模型的 “老师”,标注质量直接影响训练效果(错误标签会让模型学错特征,如将 “3” 误标为 “8”)。

第三节 Transformer 架构
一、Transformer 整体框架:从文本到智能的核心流程
Transformer 架构定义:一种基于自注意力机制的神经网络架构,用于处理序列数据(如文本),核心解决 “如何让机器理解文本并生成回答” 的问题,是当前大语言模型(如 GPT、Llama、DeepSeek-R1)的底层技术。
关键组件:编码器(Encoder)、解码器(Decoder)、自注意力机制、多头自注意力、Feedforward 神经网络。
优势:并行处理能力、长文本理解能力、可扩展性强,支撑从对话到多模态生成的全场景应用。。
核心流程:
l文本预处理:将输入文本转换为机器能处理的数字形式(Token 化→向量嵌入)。
l特征提取:通过编码器(Encoder)和 /or 解码器(Decoder),利用自注意力机制捕捉文本中的语义关联。
l生成输出:基于提取的特征,预测下一个 Token(字 / 词),逐步生成回答。
二、文本预处理:从文字到数学向量
1.Token 化:把文字拆分成 “最小单元”
作用:将文本(如中文、英文)拆分为 Token(子词 / 字 / 字母),部分汉字因结构拆分为多个子词
优势:缩小词表规模(中文常用字约 10 万,拆分为子词后 Token 数降至十几万),提升处理效率。
工具:OpenAI 的 Tokenizer 开源工具,不同公司(如 GLM)拆分规则不同(如哈利波特中文版用 GPT 处理得 80 万 Token,用 GLM 得 40 万 Token)。
DeepSeek 实践:DeepSeek-R1 采用动态稀疏激活技术,结合混合精度训练,在 2048 块 H800 GPU 集群上完成训练,训练成本仅为 GPT-3 的 1/10。
2.Embedding:将 Token 转为高维向量
作用:每个 Token 通过预训练模型(如 OpenAI 的 Tokenizer)映射为一个高维向量(如 GPT-3 的 12288 维),向量包含语义信息(如 “国王” 和 “皇帝” 的向量相似度高)。
向量特性:
语义相似度:相关词(如 “国王”“皇帝”)的向量在高维空间中距离近。
逻辑计算:支持向量加减法(如 “国王 - 男人 + 女人≈女王”)。
数学空间:高维向量存在于超大数学空间(如 12288 维空间可容纳海量语义差异,(一个坐标取 0-10000 的整数时,空间点数达 10^49152,远大于十万级 Token 需求)),通过距离计算实现语义相似度比较。
三、编码器(Encoder):理解文本的 “大脑”
编码器通过多层自注意力机制,逐层聚合文本语义信息,解决 “如何让机器理解文本中词与词的关系”。
1.自注意力机制(Self-Attention):给每个词分配 “关注度”
原理:假设输入 “我饿了,你吃了吗?”,每个字(Token)会与所有字计算 “相关度系数”(如 “饿” 与 “吃” 相关度高,与 “你” 相关度低),加权求和后生成包含上下文信息的新向量。
数学公式:
输入:通过 Query(Q)、Key(K)、Value(V)三个矩阵计算相关度(三者初始均为 Token 嵌入向量)。
计算:相关度 = softmax (QKᵀ/√d_k),输出 = 相关度 × V(加权求和)。
(简单理解:Q 找 K 匹配,根据匹配度从 V 中提取信息)
作用:捕捉长距离依赖(如跨段落语义关联),解决传统 RNN 的 “遗忘” 问题。
2.多头自注意力(Multi-Head Attention):多视角提取特征
作用:通过多组独立的 Q/K/V 矩阵将原始向量拆分为 96 个 “头”(如 96 个 128 维向量),每个头从不同角度提取特征(如语法、情感、逻辑),最后合并为 12288 维向量。
流程:
每个头将 12288 维向量拆为 128 维(96×128=12288)。
每个头独立计算自注意力,输出 128 维向量。
拼接 96 个头的输出,恢复 12288 维向量。
优势:避免单一视角局限,提升模型对复杂语义的理解(如 “问题” 在法律对话和体育对话中的不同含义)。
DeepSeek 实践:DeepSeek-V3 首创多头潜注意力(MLA),通过低秩矩阵压缩原始特征,实现长文本推理显存占用锐减 80%+,同时在 MMLU 等基准测试中提升 2-3 个精度点。
MMLU 基准定义:大规模多语言多领域知识测试,覆盖 57 个领域(如科学、历史、法律),用于评估模型的通用知识水平。
3.Feedforward 神经网络:增强模型表达能力
操作:先将 12288 维向量扩大 4 倍(如到 49152 维),再通过另一组参数缩回 12288 维。
目的:通过可训练参数(W1、W2 矩阵),增强模型自主学习复杂特征的能力,弥补自注意力的固定公式局限。
四、解码器(Decoder):生成回答的关键模块
解码器与编码器结构类似,但多了一个掩码(Mask)机制:
掩码作用:生成回答时,隐藏尚未输出的 Token(如预测 “吃” 时,掩盖后面的 “饭”),确保模型只能根据已输出内容预测下一个 Token。
生成流程:
输入:问题 + 已生成的部分回答(如 “中秋节应该吃→月”)。
处理:通过带掩码的自注意力机制,计算下一个 Token 的概率分布(如 10 万 Token 的概率)。
输出:选择概率最高的 Token(如 “饼”),逐步拼接成完整回答。
DeepSeek 优化:DeepSeek-R1 采用动态路由算法,在MoE架构(混合专家架构,将模型拆分为多个专家网络,通过动态路由机制选择最相关专家处理输入)中实现专家利用率从传统 MoE 的 12% 提升至 89%,显著提升推理效率。
五、架构变体:Encoder-only vs Decoder-only
1.Encoder-only(如 BERT):
用途:适用于文本理解任务(如分类、翻译),仅需编码器提取特征,无需生成回答。
2.Decoder-only(如 GPT、Llama、DeepSeek-R1):
用途:适用于生成任务(如对话、写作),去掉编码器,将问题和回答拼接成 “续写任务”(如 “用户问:怎么减肥?→模型续写:首先需要控制饮食…”)。
优势:简化架构,专注生成,成为当前大语言模型主流选择(如 GPT-3.5、Llama 3 、DeepSeek-R1均采用)。
参数规模:
GPT-3.5 包含 1750 亿参数,主要来自多头自注意力的 Q/K/V 矩阵(96 头 ×3 组矩阵)和 Feedforward 的 W1/W2 矩阵。
DeepSeek-R1 采用 MoE 架构,总参数达 6710 亿,但每次 token 仅激活 370 亿参数,推理成本降低 42.5%。
六、预训练:让模型 “学会思考”
目标:优化 Transformer 中的可训练参数(如多头自注意力的 Q/K/V 矩阵、Feedforward 的 W1/W2 矩阵),共约 1750 亿参数(以 GPT-3.5 为例),使模型能准确预测下一个 Token。
方法:初始参数随机,用海量文本(如万亿 Token)进行 “预测下一个 Token” 任务,通过梯度下降调整参数,使预测误差最小化(如用 500 字预测第 501 字,逐步优化)。
数据与耗时:
训练数据:万亿级 Token(如 15T 数据,375 亿个段落)。
算力需求:如 GPT-3 训练需 16000 张 H100 显卡,耗时 50 天,成本超亿元;DeepSeek-V3 仅用 2048 张 H800 显卡,耗时 56.7 天,训练成本仅为 Llama 3 的 1/10。
七、核心优势与应用
1.优势:
并行处理:突破传统循环神经网络(RNN)的顺序计算限制,可同时计算整个句子的 Token,效率大幅提升。
长文本理解:通过多层聚合(如 96 层自注意力),捕捉长距离语义关联(如红楼梦跨章节内容)。
DeepSeek 突破:DeepSeek-V3 通过 多令牌预测框架,推理吞吐量提升至 5.76 倍,生成速度从 20 TPS 提高至 60 TPS。
2.应用:
NLP 全领域:翻译、问答、写作(如 DeepSeek-R1 在金融风险评估中的应用)
多模态:图像生成如 DALL-E、视频处理如 DeepSeek-VL2 支持票据识别
行业案例:
医疗:温州医科大学附属第二医院通过 DeepSeek-R1 实现病历自动生成、体检报告智能解读。
金融:厦门第一医院接入 DeepSeek-R1,一键生成乳腺癌患者治疗计划,医生审核效率提升 80%。
代码生成:DeepSeek-Coder 在 HumanEval 测试(国际权威代码生成评测基准,包含 164 个编程问题,用于评估模型生成正确代码的能力)中超越 CodeLlama 340B,达到 GPT-3.5-Turbo 水平。
八、总结:Transformer 如何让机器 “懂人话”?
输入处理:Token 化拆分文本,Embedding 转为高维向量,构建语义基础。
深度理解:自注意力捕捉词间关联(让每个字 “关联” 相关字,理解上下文关系),多头机制多视角分析,Feedforward 自主学习复杂特征,增强特征表达,提升理解能力。
生成输出:通过解码器逐步输出 Token,形成自然语言回答,适配续写任务。
参数训练:万亿级数据驱动 1750 亿参数优化,实现从 “规则” 到 “自主学习” 的跨越。
DeepSeek 技术突破:
架构创新:MoE 架构、多头潜注意力(MLA)、动态路由算法,降低计算成本 90%。
应用落地:医疗、金融、代码生成等领域,推动 AI 规模化应用。
Transformer 的诞生标志着 AI 进入 “通用智能” 阶段,其架构设计(如自注意力、多头机制)成为现代大语言模型的 “通用引擎”,支撑了从对话到多模态生成的全场景应用。

第四节 主流大模型发展历程梳理
一、GPT 系列模型发展历程
1.1 GPT-1(2018 年)
2018 年,OpenAI 推出了具有开创性意义的 GPT-1,它以 Google 的 Transformer 架构为基石,开启了生成式预训练提升语言理解能力的新篇章。其论文《通过生成式预训练提高语言理解》详细阐述了模型的创新之处 —— 半监督学习的两阶段训练方法。在无监督预训练阶段,GPT-1 利用 Books corpus 数据集(包含 7000 本未发表的书籍),通过精妙设计解决了损失函数定义的难题,采用段落联合概率的方式,让模型能够充分学习语言的内在结构和模式。在有监督微调阶段,针对分类、蕴含、相似度比较、多选等多样化语言任务,模型通过替换 Transformer 最后的线性层,并在标注数据上进行针对性训练,从而具备了处理多种实际应用场景的能力。GPT-1 模型采用 12 层 Transformer 解码器,向量长度设置为 768,参数量达到 1 亿,尽管在当时参数规模并非最大,但这种创新性的训练方式为后续大模型的发展奠定了重要基础。
1.2 GPT-2(2019 年)
2019 年发布的 GPT-2,其论文标题《语言模型是无监督的多任务学习者》就鲜明地表达了它的发展方向。GPT-2 敏锐地察觉到 GPT-1 在面对不同子任务时需要重新微调的局限性,进而提出了无监督多任务学习的理念,期望模型能够朝着处理更通用任务的方向迈进,减少对每个子任务手动标注数据的依赖,以提升模型的泛化能力和通用性。为了实现这一目标,GPT-2 构建了规模更为庞大的 Web text 数据集,该数据集通过对 Reddit 上精心筛选出的 4500 万个链接进行处理而得,其中涵盖了图书、维基百科等丰富多样的数据来源,经过去重后包含 800 万个文档,总计 40 多个 G 的文本。在模型规模上,GPT-2 实现了大幅跃升,参数量提升到 15 亿,并推出了四个不同尺寸的模型版本,最大的模型配置了 48 层 Transformer,向量宽度拓展至 1600,通过扩大模型规模和丰富数据集,GPT-2 朝着通用语言模型的目标迈出了坚实的一步。
1.3 GPT-3(2020 年)
2020 年问世的 GPT-3,创新性地提出 “语言模型是少数样本学习者” 的概念,这一理念深受人脑在面对一些任务时通过少量提示就能完成这一现象的启发。为此,GPT-3 引入了上下文学习(in context learning)和提示词(prompt)的关键概念,使得模型在不需要大量标注数据进行微调的情况下,仅通过提供少量样本,就能执行各种任务,极大地拓展了模型的应用灵活性。在数据使用方面,GPT-3 采用了 Common Crawl 数据集(过滤后包含 4000 亿 token)等多种大规模数据,参数量更是暴增至 1750 亿,同时推出了从 GPT-3 small 到 175B 版本等多种尺寸的模型。在实际表现中,GPT-3 在翻译、问答、完形填空等众多任务上展现出了卓越的能力,开始涌现出智能的显著特征,其强大的语言生成和理解能力引发了广泛关注,推动了自然语言处理领域的新一轮发展热潮。
1.4 GPT-3.5(2022 年)
2022 年推出的 GPT-3.5(Instruct GPT)主要通过人类反馈强化学习(RLHF)三部曲来实现对话能力的显著提升。这一过程的第一步是有监督微调(SFT),OpenAI 组织人员精心标注了 13000 条数据,基于这些数据对 GPT-3 进行微调,使得模型初步适应对话任务的要求,能够更好地理解和遵循人类的指令。第二步是奖励模型(Reward Model)训练,通过对模型输出进行评估和奖励机制的建立,引导模型生成更符合人类期望的回答。第三步是近端策略优化(PPO),进一步优化模型的策略,提升模型在对话场景中的表现。在评估方式上,GPT-3.5 摒弃了传统依赖数据集刷分的模式,更加注重人类对模型输出的偏好,以确保模型生成的内容更贴合人类的实际需求和认知习惯,使得模型在对话交互方面更加自然流畅,更能满足用户的日常交流需求。
1.5 GPT-4(2023 年)
2023 年发布的 GPT-4 采用了混合专家模型(MoE)架构,模型参数总量达到 1.8 万亿。该模型内部包含 16 个专家模型,每个专家模型约有 1000 多亿个参数,在执行任务时,通过门控网络进行智能分流,每次仅有两个专家模型参与前向传播,这种设计在有效控制计算成本的同时,充分发挥了不同专家模型的优势,显著提升了模型的性能。与之前版本相比,GPT-4 的参数意义发生了深刻变化,更加贴合人脑的运行方式,在推理成本没有大幅增加的前提下,实现了模型能力的全方位提升。无论是在复杂问题的理解与解答、文本生成的逻辑性和连贯性,还是在对多模态信息的处理能力上,GPT-4 都展现出了超越前代模型的卓越表现,成为自然语言处理领域的又一里程碑式的模型,引领了行业发展的新方向。
二、DeepSeek 模型发展历程
2.1 初步形成
2024 年 4 月,北京深度求索人工智能基础技术研究有限公司推出 DeepSeek 大语言模型算法。该模型基于 Transformer 架构,在模型算法和工程优化方面进行了系统级创新。其基座模型 V3 采用混合专家机制,总参数高达 6710 亿,但独特之处在于每次 token 仅激活 8 个专家、370 亿参数,这种设计使得预训练速度大幅提升,同时推理速度也得到显著加快,为后续模型的高效运行和快速迭代奠定了坚实基础,在模型架构和运行效率的平衡上迈出了创新性的一步。
2.2 DeepSeek LLM
2024 年 1 月 5 日,DeepSeek 发布了包含 670 亿参数的 DeepSeek LLM。该模型在 2 万亿 token 的庞大数据集上进行训练,数据涵盖中英文,具有广泛的语言适应性。值得一提的是,DeepSeek 全面开源了 DeepSeek LLM 7B/67B Base 和 DeepSeek LLM 7B/67B Chat,展现了其推动行业发展、促进技术共享的积极态度。在性能表现上,DeepSeek LLM 在推理、编码、数学和中文理解等多个关键领域超越了 Llama2 70B Base,尤其在中文表现方面,更是超越了 GPT-3.5,凸显了其在多语言处理,特别是中文处理能力上的优势,为用户提供了更强大、更精准的语言交互体验。
2.3 DeepSeek Coder
2024 年 1 月 25 日发布的 DeepSeek Coder 是一系列代码语言模型的集合。每个模型均在 2 万亿 token 上进行训练,其数据集具有独特的构成,包含 87% 的代码和 13% 的中英文自然语言,这种数据配比使得模型能够充分学习代码语言与自然语言之间的关联和转换。在多种编程语言和各种基准测试中,DeepSeek Coder 达到了开源代码模型的最先进性能水平,无论是在代码生成的准确性、效率,还是对复杂编程任务的理解和处理能力上,都展现出了卓越的表现,为开发者提供了高效、智能的代码编写辅助工具,有力地推动了软件开发领域的智能化进程。
2.4 DeepSeekMath
2024 年 2 月 5 日推出的 DeepSeekMath 以 DeepSeek-Coder-v1.5 7B 为基础,在 5000 亿 token 上继续进行预训练。在竞赛级 MATH 基准测试中,DeepSeekMath 取得了 51.7% 的优异成绩,这一成绩使其性能接近 Gemini-Ultra 和 GPT-4 的水平,在数学领域的模型性能竞争中脱颖而出。这表明 DeepSeekMath 在解决复杂数学问题、进行数学推理和计算方面具有强大的能力,能够为科研、教育等需要高精度数学计算和分析的领域提供有力支持,提升了人工智能在数学专业领域的应用价值。
2.5 DeepSeek-VL
2024 年 3 月 11 日发布的 DeepSeek-VL 是一个开源的视觉 - 语言(VL)模型。该模型采用混合视觉编码器,通过巧妙地融合不同视觉编码方式的优势,在相同模型尺寸下,于广泛的视觉 - 语言基准测试中达到了最先进或具有竞争力的性能。无论是在图像描述生成、视觉问答,还是在图像与文本信息的联合理解和处理等任务上,DeepSeek-VL 都展现出了卓越的能力,为多模态人工智能的发展注入了新的活力,促进了视觉与语言信息融合处理技术的进步,拓展了人工智能在跨模态信息处理领域的应用边界。
2.6 DeepSeek-V2
2024 年 5 月 7 日发布的 DeepSeek-V2 是第二代开源 Mixture-of-Experts(MoE)模型。该模型总参数达到 2360 亿,每个 token 激活 210 亿个参数。在 8.1 万亿 token 的超大规模语料库上进行预训练,使得 DeepSeek-V2 在标准基准测试和开放式生成评估中表现显著。与前代模型相比,DeepSeek-V2 在训练成本上节省了 42.5%,KV 缓存减少 93.3%,最大生成吞吐量提升至 5.76 倍,在提升模型性能的同时,实现了计算资源的高效利用,为大规模模型的训练和部署提供了更经济、高效的解决方案,推动了人工智能模型在实际应用中的普及和发展。
2.7 DeepSeek-Coder-V2
2024 年 6 月 17 日发布的 DeepSeek-Coder-V2 是开源的混合专家(MoE)代码语言模型,在代码特定任务中,其性能达到了与 GPT4-Turbo 相当的水平,展现出了强大的代码处理能力。该模型进一步预训练了额外的 6 万亿 token,使得其知识储备和语言理解能力得到极大丰富。同时,支持的编程语言从 86 种扩展到 338 种,几乎涵盖了当前所有主流和小众的编程语言,极大地拓展了模型的应用范围;上下文长度从 16K 扩展到 128K,能够更好地处理长代码片段和复杂的编程场景,为开发者在多样化编程需求下提供了更全面、更强大的代码生成和辅助功能。
2.8 DeepSeek-VL2
2024 年 12 月 13 日发布的 DeepSeek-VL2 是用于高级多模态理解的专家混合视觉语言模型。在多种任务中,如视觉问答、光学字符识别等,DeepSeek-VL2 展现出了卓越的能力。该模型由三个变体组成,在相似或更少的激活参数下,实现了具有竞争力或达到最先进水平的性能。通过优化模型架构和训练算法,DeepSeek-VL2 在多模态信息的融合和理解上取得了新的突破,能够更精准地处理和分析图像、文本等多种类型的信息,为智能安防、智能医疗影像分析、智能文档处理等多模态应用场景提供了更强大的技术支持,推动了多模态人工智能技术在实际应用中的深入发展。
2.9 DeepSeek-V3
2024 年 12 月 26 日发布的 DeepSeek-V3 在知识类任务上取得了显著的性能提升,其水平接近 Claude-3.5-Sonnet-1022。在具有挑战性的美国数学竞赛和全国高中数学联赛相关任务中,DeepSeek-V3 大幅超过其他所有开源闭源模型,展现出了在数学知识理解和应用方面的超强实力。同时,该模型的生成吐字速度提升至 60TPS,相比 V2.5 模型实现了 3 倍的提升,这使得用户在与模型交互时能够获得更快速、流畅的响应,极大地提升了用户体验,无论是在知识问答、解题辅导,还是在其他需要快速知识检索和生成的场景中,都能为用户提供高效、准确的服务。
2.10 DeepSeek-R1
2024 年 11 月 20 日,DeepSeek-R1-Lite 预览版正式上线,开启了该模型的应用探索之旅。2025 年 1 月 20 日,DeepSeek-R1 正式发布并开源模型权重,促进了相关技术的交流与共享,推动了行业的技术进步。1 月 24 日,在 Arena 上,DeepSeek-R1 的基准测试成绩飙升至全类别大模型第三,在风格控制类模型分类中更是与 OpenAI o1 并列第一,彰显了其在特定领域的卓越性能。1 月 31 日,英伟达、微软与亚马逊三家美国头部企业接入该模型,充分认可了其技术价值和应用潜力,进一步推动了 DeepSeek-R1 在行业内的广泛应用。2 月,DeepSeek-R1 成功上线国家超算互联网平台,借助强大的算力支持,将进一步提升模型的运行效率和处理大规模任务的能力,为更多科研、工业等领域的复杂应用场景提供有力支撑,拓展了人工智能技术在国家层面重大项目中的应用深度和广度。
三、文心大模型发展历程
3.1 文心大模型 1.0(2019 年 3 月)
2019 年 3 月,百度基于飞桨深度学习平台发布了文心大模型 1.0 版本。该版本创新性地将数据与知识进行融合,通过这种独特的方式,有效提升了大模型的学习效率及学习效果。在自然语言处理任务中,知识的融入使得模型能够更好地理解文本背后的语义和逻辑关系,从而在诸如文本分类、语义理解等基础任务上表现出优于传统模型的性能,为后续文心大模型的持续发展和优化奠定了坚实的技术基础,开启了百度在大模型领域探索的征程。
3.2 文心大模型 2.0(2019 年 7 月)
同年 7 月,文心大模型升级到 2.0 版本。ERNIE 2.0 通过构建持续学习框架,能够持续不断地从大规模语料中学习词法、语法、语义等丰富知识。这种持续学习的能力使得模型能够随着时间的推移和数据的积累不断进化,在共计 16 个中英文任务上取得了当时全球最好的效果。无论是在中文语言理解的细腻度,还是在英文文本处理的通用性上,文心大模型 2.0 都展现出了卓越的性能,进一步巩固了百度在大模型技术领域的领先地位,为其在自然语言处理相关应用场景的拓展提供了更强大的技术支持。
3.3 ERNIE 语义理解开发套件(2019 年 11 月)
2019 年 11 月,百度发布 ERNIE 语义理解开发套件。该套件为开发者提供了一套便捷、高效的工具,使得开发者能够基于文心大模型的技术,快速开发出各种与语义理解相关的应用程序。通过该套件,开发者可以利用文心大模型在语义分析、知识图谱构建等方面的能力,实现诸如智能客服语义解析、智能写作语义辅助等功能,极大地降低了自然语言处理技术在实际应用开发中的门槛,促进了相关技术在各个行业的快速落地和应用,推动了人工智能技术与产业的深度融合。
3.4 ERNIE-ViL(2020 年 7 月)
2020 年 7 月,百度提出知识增强视觉 - 语言预训练模型 ERNIE-ViL。该模型首次创新性地将场景图知识融入多模态预训练过程中,通过这种方式,模型能够更好地理解视觉信息与语言信息之间的关联和对应关系。在实际表现中,ERNIE-ViL 在 5 项多模态任务上刷新了当时的世界最好效果,并在多模态领域权威榜单 VCR 上超越微软、谷歌、Facebook 等机构,登顶榜首。这一成果充分展示了百度在多模态人工智能技术领域的领先实力,为图像描述生成、视觉问答等多模态应用场景带来了更先进的解决方案,推动了多模态人工智能技术的发展和应用。
3.5 PLATO-XL(2021 年 9 月)
2021 年 9 月,百度发布了 PLATO-XL,这是全球首个百亿参数中英文对话预训练生成模型。在开放域对话效果方面,PLATO-XL 达到了世界领先水平。该模型通过对大规模对话数据的学习,能够理解对话的上下文语境,生成自然流畅、富有逻辑的回复,无论是在日常闲聊场景,还是在专业领域的对话交流中,都能为用户提供高质量的对话体验。其先进的对话生成能力为智能客服、虚拟助手等对话式人工智能应用的发展提供了强大的技术支撑,提升了用户与机器进行自然语言交互的效率和质量。
3.6 鹏城 - 百度・文心(2021 年 12 月)
2021 年 12 月 8 日,百度联合鹏城实验室发布全球首个知识增强千亿大模型 —— 鹏城 - 百度・文心(ERNIE 3.0 Titan),其参数规模达到 2600 亿,成为当时全球最大的中文单体模型。在算法框架上,该模型沿用 ERNIE 3.0 的算法,确保了模型在知识理解和处理方面的优势得以延续。在模型结构上,采用统一预训练框架,提高了模型训练的效率和稳定性。在训练过程中,结合百度飞桨自适应大规模分布式训练技术和 “鹏城云脑 Ⅱ” 强大的算力集群,实现了大规模数据的高效处理。同时,首创大模型在线蒸馏框架,有效降低了大模型落地应用的成本,使得这一超大规模的模型能够更广泛地应用于实际场景,为中文语言处理和知识智能应用带来了更强大的技术动力。
3.7 ERNIE 3.0 Zeus(2022 年 5 月)
2022 年 5 月,百度发布融合任务相关知识的千亿大模型 ERNIE 3.0 Zeus。该模型针对特定任务场景,将相关的知识和信息融入到模型训练中,显著提升了模型在逻辑推理、数学计算及代码生成等任务上的表现。例如,在一些复杂的数学应用题和逻辑推理测试中,文心大模型 3.5 能够更准确地分析问题、推导步骤并给出正确答案,为用户提供了更可靠的智能服务,在实际应用场景中发挥了重要作用 。
3.8 文心一言(2023 年 3 月)
2023 年 3 月,百度在 ERNIE 及 PLATO 系列模型基础上精心研发并发布了文心一言。这一产品集成了多项先进技术,具备强大的对话交互、内容创作、知识推理以及多模态生成等能力。其关键技术包括有监督精调,通过对大量标注数据的学习,使模型更好地理解人类语言的表达方式和意图;人类反馈的强化学习,利用人类对模型输出的评价和反馈,不断优化模型的生成策略,以生成更符合人类期望的回答;提示技术,通过巧妙设计的提示词引导模型生成特定风格或内容的文本;知识增强,借助百度庞大的知识图谱,将丰富的知识融入模型训练,使模型在回答问题时能够提供更具权威性和准确性的答案;检索增强,通过实时检索相关信息,结合模型自身的生成能力,为用户提供更全面、最新的信息;对话增强,优化对话过程中的上下文理解和连贯性,让对话更加自然流畅。文心一言的发布,为用户提供了一个功能强大、智能高效的交互平台,推动了人工智能技术在实际应用中的普及和发展,成为百度在人工智能领域的重要里程碑产品 。
3.9 文心大模型 3.5(2023 年 5 月)
2023 年 5 月,文心大模型成功迭代至 3.5 版本,在性能和功能上实现了质的飞跃。在训练速度方面,相比之前版本提升了 2 倍,这得益于百度在飞桨深度学习平台上采用的自适应混合并行训练技术和混合精度计算策略,这些技术能够更高效地利用计算资源,加速模型参数的更新和优化。推理速度更是提升了 17 倍之多,极大地缩短了用户请求的响应时间,为用户带来了更流畅、高效的使用体验。在模型效果上,文心大模型 3.5 在创作、问答、推理和代码等核心能力上都有显著提升。在创作任务中,能够生成更具文采、逻辑更严谨的文本;问答环节,对复杂问题的理解和回答准确性大幅提高;推理能力上,能够处理更复杂的逻辑推理任务;代码生成方面,生成的代码质量更高、更符合编程规范。此外,该版本新增了插件机制,默认内置的 “百度搜索” 插件,使文心一言能够实时获取最新的信息,生成的回答更加准确和及时;“ChatFile” 长文本摘要和问答插件,支持超长文本的输入和处理,能够对长文档进行快速摘要和精准问答,极大地拓展了大模型的应用范围和能力边界,满足了用户在不同场景下的多样化需求 。
3.10 文心一言全面开放(2023 年 8 月)
2023 年 8 月,文心一言迎来了重要的发展阶段 —— 向全社会全面开放。这一举措标志着文心一言从前期的测试和小范围应用阶段,正式步入大规模普及和广泛应用的新时期。全面开放后,文心一言的用户群体得到了极大的扩展,无论是个人用户在日常生活中的知识查询、创意写作、问题解答,还是企业用户在智能客服、内容创作、数据分析等业务场景中的应用,都能便捷地使用文心一言的强大功能。同时,星火 API、星火助手与星火插件也均全面开放,为开发者提供了丰富的工具和接口,便于他们基于文心大模型进行二次开发和应用创新。与超过 10000 家企业的合作对接,更是催生了大量基于文心一言的 AI 助手应用,涵盖了教育、金融、医疗、电商等多个行业领域,这些应用不仅为企业提升了运营效率、优化了用户服务体验,还进一步推动了人工智能技术与实体经济的深度融合,促进了整个产业生态的繁荣和发展。
3.11 文心大模型 4.0(2023 年 10 月)
2023 年 10 月,百度正式发布文心大模型 4.0,实现了基础模型的全面升级。基于万卡算力和飞桨框架的软硬协同优化训练,文心大模型 4.0 在理解、生成、逻辑、记忆四大核心能力上都取得了显著的提升。在理解能力方面,能够更精准地把握文本的语义、语境和隐含信息,无论是对复杂语句的解析,还是对专业领域知识的理解,都表现出更高的准确性和深度;生成能力上,生成的文本更加自然流畅、富有逻辑性和创造性,在文章写作、对话交互、创意生成等任务中,能够生成质量更高、更贴合用户需求的内容;逻辑能力的提升尤为突出,在处理逻辑推理、数学计算、问题解决等任务时,能够进行更严谨的推理和分析,得出更合理、准确的结论,其逻辑提升幅度达到理解能力提升幅度的近 3 倍;记忆能力方面,能够更好地记住上下文信息和历史对话内容,在多轮对话和长文本处理中,保持对信息的连贯性理解和运用,提升幅度达到理解能力的 2 倍多。文心大模型 4.0 的发布,使其在自然语言处理和人工智能领域的竞争力进一步增强,为更广泛、更复杂的应用场景提供了强大的技术支持。
3.12 文心大模型 4.0 工具版(2024 年 4 月)
2024 年 4 月 16 日,百度正式发布文心大模型 4.0 工具版,为用户带来了全新的功能体验 —— 代码解释器功能。借助这一功能,用户能够通过自然语言与模型进行交互,实现对复杂数据和文件的高效处理和分析。例如,在数据分析场景中,用户只需用自然语言描述自己的分析需求,如 “分析这份销售数据中各产品的季度销售趋势,并生成可视化图表”,文心大模型 4.0 工具版就能自动读取和解析数据文件,运用数据分析算法进行计算和处理,最终生成清晰直观的可视化图表,并以通俗易懂的语言解释分析结果。在文件处理方面,对于各种格式的文档、表格、图片等,模型也能理解用户的指令,进行格式转换、内容提取、摘要生成等操作。这一功能的推出,极大地降低了非专业技术人员处理数据和文件的门槛,提高了工作效率,为科研人员、企业数据分析员、普通办公人员等各类用户在数据处理和文件管理工作中提供了便捷、智能的解决方案 。
3.13 文心大模型 4.0 Turbo(2024 年 6 月)
2024 年 6 月 28 日,百度正式发布文心大模型 4.0 Turbo,在性能和功能上进行了针对性的优化和升级。在应答速度方面,通过对模型架构和推理算法的优化,显著缩短了模型生成回答的时间,能够更快速地响应用户的请求,为用户提供即时的服务,尤其在实时交互场景中,如在线客服、即时问答等,大大提升了用户体验的流畅性。检索能力上,文心大模型 4.0 Turbo 进一步增强了对海量信息的检索和筛选能力,能够更精准、快速地从庞大的知识库和互联网信息中获取与用户问题相关的资料,并将这些信息与模型自身的知识相结合,生成更全面、准确的回答。截至 2024 年 11 月初,百度文心大模型的日均调用量超 15 亿,这一数据充分反映了用户对文心大模型的高度认可和广泛应用,而文心大模型 4.0 Turbo 的推出,凭借其在应答速度和检索能力上的优势,进一步巩固了文心大模型在市场中的地位,满足了用户对高效、智能信息服务的不断增长的需求 。
3.14 文心大模型 4.5 和文心大模型 X1(2025 年 3 月)
2025 年 3 月 16 日,百度发布了文心大模型 4.5 和文心大模型 X1,两款模型在文心一言官网上线并免费向用户开放。文心大模型 4.5 是百度首个原生多模态大模型,通过多个模态联合建模实现协同优化,具备优秀的多模态理解能力,在多模态理解、文本和逻辑推理能力上有显著提升。它不仅能够进行图形推理、图表分析等高智商任务,还能理解梗图、漫画、歌曲、电影等多模态内容,展现出高情商的理解能力,在多模态相关的任务测试中表现优于 GPT4.5,且 API 调用价格仅为 GPT4.5 的 1%。例如,当用户提供一张复杂的图表并询问相关趋势分析时,文心大模型 4.5 能够准确解读图表信息并给出专业的分析;面对一段包含隐喻的漫画,也能理解其中的深层含义并进行阐述。
文心大模型 X1 为深度思考模型,运用了递进式强化学习,具备 “长思维链”,擅长中文知识问答、文学创作、逻辑推理等任务。与其他模型相比,它在处理需要深入思考和复杂推理的问题时表现出色,能够给出更具逻辑性和深度的回答。同时,文心大模型 X1 增加了多模态能力和多工具调用功能,能理解和生成图片,还能调用工具生成代码、图表等丰富内容,已支持高级搜索、文档问答、图片理解、AI 绘图、代码解释器、网页链接读取等多款工具。比如在进行文学创作时,它可以根据用户给定的主题和要求,调用相关工具搜索资料,结合自身的理解和创作能力,生成高质量的文学作品;在解答复杂的数学问题时,能够调用代码解释器进行辅助计算和推理。两款模型的发布,进一步丰富了文心大模型的产品矩阵,为不同需求的用户提供了更精准、更强大的智能服务 。
四、Gemini 模型发展历程
4.1 计划与早期动态(2023 年 4 - 9 月)
2023 年 4 月,Alphabet(谷歌母公司)首席执行官桑达尔・皮查伊做出了一项具有战略意义的决策,合并了两个大型人工智能团队,正式开启了对标 OpenAI 的计划,旨在整合资源,提升谷歌在人工智能领域的竞争力,为后续开发强大的人工智能模型奠定组织基础。5 月,在谷歌开发者大会上,公司透露正在紧锣密鼓地开发 AI 大模型 Gemini,这一消息引发了行业内的广泛关注,人们对谷歌这一老牌科技巨头在大模型领域的新作充满期待。8 月,谷歌率先在面向印度和日本用户的搜索工具中引入了生成式人工智能,开始在实际应用场景中探索和验证人工智能技术的可行性和用户接受度,并以每位用户每月 30 美元的价格向企业客户提供其人工智能工具,迈出了将人工智能技术商业化的重要一步。9 月 15 日,谷歌向少数公司开放了其对话式人工智能软件 Gemini 的早期版本,通过与部分企业的合作,收集反馈意见,对模型进行优化和改进,为后续的正式发布做准备 。
4.2 Gemini 1.0 发布(2023 年 12 月)
2023 年 12 月 6 日,Gemini 初始版本在谷歌的聊天机器人 Bard 中推出,同时经过优化正式推出 Gemini 1.0 版本,该版本包括 Gemini Ultra、Gemini Pro 和 Gemini Nano 三个不同规格,以满足不同用户群体和应用场景的需求。Gemini 是一种具有创新性的 AI 模型,具备强大的多模态处理能力,可以高效地处理文本、图像和视频等多种类型的数据。它内置了谷歌自研的 AI 超算芯片 Cloud TPU V5P,借助强大的硬件算力支持,实现了卓越的性能表现。Gemini 成为第一个在 MMLU(大规模多任务语言理解)方面优于人类专家的模型,在自然语言处理、图像识别、视频理解等多个领域展现出了领先的技术实力。例如,在图像识别任务中,Gemini 能够准确识别出复杂场景中的各种物体,并对其进行详细描述;在自然语言处理任务中,无论是文本生成、问答系统还是语言翻译,都能提供高质量的结果,为用户带来了全新的、更智能的交互体验,推动了人工智能技术在多模态应用领域的发展 。
4.3 Gemini 1.5 发布(2024 年 2 月)
2024 年 2 月 15 日,谷歌发布 Gemini 1.5 版本,进一步提升了模型的性能和功能。在该版本中,首个登场的多模态通用模型 Gemini 1.5 Pro 表现尤为突出,它成功扩大了稳定处理上下文的上限至 100 万 tokens,这意味着模型能够处理更长、更复杂的文本和多模态信息序列,在处理长篇文档、复杂对话以及多模态融合的复杂任务时,能够更好地理解上下文关系,生成更连贯、准确的回答。例如,在处理一部长达数万字的学术论文时,Gemini 1.5 Pro 能够全面理解论文内容,并准确回答关于论文核心观点、研究方法、实验结论等方面的问题。同时,在 Kalamang 语翻译至英语的测试中,Gemini 1.5 Pro 也展现出了出色的表现,其翻译结果在准确性和流畅性上都达到了较高水平,为跨语言交流和文化传播提供了更强大的支持,体现了谷歌在提升模型语言处理能力和多模态处理能力方面的持续努力和技术进步 。
4.4 Gemini 1.5 Pro 升级与新模型推出(2024 年 5 月)
2024 年 5 月 15 日,谷歌对 Gemini1.5Pro 版本进行了更新升级,将处理上下文上限进一步提升到 200 万 tokens,使其在处理超长篇幅信息时的能力得到了极大增强,能够更好地应对复杂的业务场景和用户需求。例如,在处理大型企业的年度报告、法律法规文档库等超长文本时,Gemini1.5Pro 能够更全面、深入地理解文本内容,为用户提供更精准的信息提取和分析服务。同时,谷歌全面支持 Workspace,将 Gemini 的能力融入到办公套件中,使得用户在日常办公中,如撰写文档、制作演示文稿、进行数据分析等操作时,能够借助 Gemini 的智能功能提高工作效率。此外,谷歌面向全球开发者开放 Gemini 相关技术和工具,促进了开发者社区对 Gemini 的应用开发和创新,推动了基于 Gemini 的生态系统建设。谷歌还推出了 Gemini1.5Flash 轻量化小模型,该模型在保持一定性能的同时,具有更低的资源消耗和更快的推理速度,适用于对资源有限的设备和实时性要求较高的场景,如移动设备上的智能助手、边缘计算设备中的实时图像识别等应用。同时,宣布推出基于 Gemini 1.5 Pro 的 Gemini Advanced,升级后的 Gemini Advanced 可以处理多个大型文档,支持 35 多种语言和 150 多个国家及地区,进一步拓展了 Gemini 在全球范围内的应用范围和语言适应性,满足了不同地区、不同语言用户的多样化需求 。
4.5 功能更新与拓展(2025 年 2 月)
2025 年 2 月 14 日,Gemini AI 上线了 “全局记忆” 功能,这一功能使得模型能够更好地记住和利用之前的对话信息和任务历史,在多轮对话和连续任务处理中,能够根据上下文提供更连贯、更符合逻辑的回答,提升了用户与模型交互的流畅性和体验感。例如,在一个涉及多个步骤的技术咨询对话中,用户在前几轮询问了关于某种软件的安装方法,后续又询问该软件的某个功能如何使用,Gemini AI 凭借 “全局记忆” 功能,能够关联之前关于该软件安装的对话内容,更全面、准确地回答关于功能使用的问题。2 月 15 日,谷歌 Gemini AI 开始向免费版用户开放文件上传和分析功能,用户可以将文档、表格、图片等文件上传给 Gemini AI 进行分析,模型能够理解文件内容并提供相关的信息提取、摘要生成、问题解答等服务,进一步增强了 Gemini AI 在实际工作和学习场景中的实用性。此外,代码显示谷歌正在积极开发视频生成功能,预计会在以后的更新中添加到 Gemini 中,这一功能的推出将进一步丰富 Gemini 的多模态能力,为用户在视频创作、内容生成等领域提供更多的可能性,推动人工智能在多媒体创作领域的应用发展 。
4.6 Gemini 2.5 系列发布(2025 年 3 月)
2025 年 3 月 26 日,谷歌发布 Gemini 2.5 系列人工智能推理模型,该系列模型在技术上取得了新的突破。在回答问题前,Gemini 2.5 系列模型会 “思考” 片刻,通过更深入的推理和分析过程,提高回答的准确性和质量。例如,在面对复杂的科学问题、逻辑推理题或需要综合多方面信息才能回答的问题时,模型能够利用其先进的推理算法,对问题进行拆解、分析,从大量的知识储备中筛选和整合相关信息,从而给出更合理、更全面的答案。Gemini 2.5 系列模型登陆谷歌开发者平台 Google AI Studio,向每月支付 20 美元订阅 “Gemini Advanced” 的用户开放,为专业开发者和对模型性能有较高要求的用户提供了更强大的工具和服务。Gemini 2.5 Pro 支持高达 100 万 token 的超大上下文窗口,单次可以处理约 75 万英文单词,这使得模型在处理超长文本、复杂项目文档、大型数据集分析等任务时具有明显优势,能够更全面、深入地理解和处理大规模信息,满足了企业级用户和科研人员在处理复杂业务和学术研究中的需求,进一步巩固了谷歌在人工智能推理模型领域的领先地位 。
五、讯飞星火模型发展历程
5.1 启动研发(2022 年 12 月)
2022 年 12 月,科大讯飞启动了具有重要战略意义的 “1+N” 大模型技术攻关项目。其中,“1” 指的是通用认知智能大模型算法研发及高效训练方案底座平台, “N” 指的是将认知智能大模型技术应用在教育、医疗、人机交互、办公、翻译等多个行业领域。科大讯飞期望通过这一项目,打造出具有强大通用能力且能在多行业深度应用的大模型体系,为后续的技术突破和产业应用筑牢根基 。
5.2 官网上线与内测体验(2023 年 4 月)
2023 年 4 月 24 日,科大讯飞星火认知大模型官网正式上线,这一举措标志着讯飞星火迈出了面向公众的重要一步。官网不仅为用户提供了一个便捷的交互入口,还开展了全面的需求调研,广泛收集用户的期望和建议。部分用户获得了珍贵的内测体验机会,他们能够提前感受讯飞星火的智能魅力,并在使用过程中反馈问题和提出改进意见。在调研页面,讯飞星火认知大模型基于用户个人信息,尝试更精准地与用户需求进行匹配,同时在行业应用场景上,为用户提供了 “办公、客服、营销、金融、媒体、汽车、教育、医疗” 等重点领域的选择,以便更好地了解用户在不同行业场景下对大模型的需求 。
5.3 讯飞星火认知大模型 V1.0 发布(2023 年 5 月)
2023 年 5 月 6 日,科大讯飞旗下的讯飞星火认知大模型 V1.0 震撼发布,这是以中文为核心的认知智能大模型,在多领域多任务上可基于自然语言对话的方式实现用户需求理解与任务执行。讯飞星火认知大模型 V1.0 一经推出,便展示出了在文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力等七大维度的卓越能力。例如,在文本生成方面,它能够根据给定的主题,迅速生成逻辑清晰、内容丰富的文本;在知识问答环节,对于各类常识性问题和专业领域问题,都能给出较为准确的回答。并且,该模型能够持续从海量数据和大规模知识中不断学习进化,为后续的能力提升奠定了坚实基础。与此同时,科大讯飞就确定了 2023 年的三个阶段目标:6 月 9 日,明显提升开放式问答和多轮对话的能力、再升级数学能力;8 月 15 日,进行代码能力、多模态交互能力的升级;10 月 24 日,实现通用模型对标 ChatGPT,并且达到中文能力超越 ChatGPT,英文能力与 ChatGPT 相当 。
5.4 位列全球总榜第三、中国第一(2023 年 5 月)
2023 年 5 月 9 日,中文通用大模型综合性评测基准 SuperCLUE 正式发布,该基准测试主要关注三大问题,包括中文大模型在不同任务上的表现、相较国际代表性模型中文大模型的表现达到的程度,以及中文大模型相较人类的表现。在此次具有权威性和影响力的测试中,讯飞科技研发的星火认知大模型表现出色,位列全球总榜第三、中国第一。这一成绩的取得,充分证明了讯飞星火在自然语言处理技术、知识储备以及模型性能等方面的强大实力,也彰显了科大讯飞在大模型研发领域的领先地位,为其后续的技术推广和应用拓展奠定了良好的口碑基础 。
5.5 讯飞星火认知大模型 V1.5 发布(2023 年 6 月)
2023 年 6 月 9 日,讯飞星火认知大模型 V1.5 正式发布,实现了关键能力的升级。在开放式知识问答方面取得突破,科大讯飞总裁吴晓如认为 “大模型真正强大之处在于以自然语言理解为核心,结合类搜索等插件能力,从而解决更加复杂的问题。” 通过结合大模型的语言理解能力、概括表达能力以及类搜索插件,讯飞星火认知大模型的开放式知识问答能力得到显著增强,能够应对更广泛、更复杂的知识查询需求。多轮对话能力也得到提升,使对话体验更接近真人。例如在模拟面试官场景中,能够通过多轮对话与追问,为用户提供仿真的面试场景,根据用户回答进行针对性反馈和引导。在逻辑能力与数字能力方面,长链条思维推理和数理逻辑推理能力的提升,让讯飞星火认知大模型面对各类数学逻辑难题时,可以综合应用各种数学方法,并给出准确答案,如农夫、狼、羊、菜过河问题,直线相交问题,概率问题等复杂数学逻辑问题都能迎刃而解 。
5.6 新加坡产品发布会与无锡站活动(2023 年 6 - 7 月)
2023 年 6 月 20 日,讯飞星火认知大模型联合 C 端智能硬件在新加坡成功举办产品发布会暨讯飞 AI TechDay・新加坡站活动。此次活动向新加坡乃至东南亚市场展示了讯飞星火的先进技术和创新应用,吸引了当地众多科技企业、开发者和用户的关注,为讯飞星火拓展国际市场奠定了基础。6 月 28 日,讯飞 AI TechDay・无锡站暨科技生活成果分享会成功举办。在该分享会上,科大讯飞开放平台研发部总监郑贵指出,在 AI 工程技术面临着 “智能涌现” 等新挑战的背景下,科大讯飞推出了讯飞大模型研发服务一体化平台 —— 讯飞火石平台以及讯飞认知大模型。同时提到星火认知大模型已实现 PC、H5、APP、小程序全端覆盖,全新打造的 Prompt “应用开发” 场景,可与用户共创星火助手,进一步丰富了用户与模型的交互方式和应用开发途径 。
5.7 与华为合作及内容安全保障(2023 年 7 月)
2023 年 7 月 6 日,科大讯飞高级副总裁、认知智能全国重点实验室主任胡国平在昇腾人工智能产业高峰论坛上,公布了讯飞与华为的合作。胡国平指出,“中国大模型安全和发展的关键是,基于自主创新的硬件及软件的大模型生态快速进步。” 由于中国大模型研发高度依赖高端 AI 芯片、集群及生态,而单 AI 芯片进步速度还未跟上大模型对大算力的需求。因此科大讯飞为了实现打造中国通用智能新底座,并保证大模型算力的安全可控,一方面,以昇腾 AI 为核心,软硬件协同优化;另一方面,基于训练推理一体化设计实现大模型稀疏化、低精度量化的技术突破,并且高效适配昇腾 AI,构建了算力集中、供给稳定、数据安全的大模型训练集群。与此同时,讯飞星火形成了立体化的 “内容安全” 保障机制,从数据筛选、模型训练、输出审核等多个环节入手,解决了内容安全方面的问题,确保模型生成的内容符合法律法规和道德规范 。
5.8 在《人工智能大模型体验报告 2.0》中位列第一(2023 年 8 月)
2023 年 8 月 12 日,据新华社研究院中国企业发展研究中心发布的《人工智能大模型体验报告 2.0》显示,讯飞星火在被报告选取的 8 种大模型产品中以 1013 的总分位列第一,其 AI 大模型智商指数、AI 大模型提效指数均排名第一。该报告从多个维度对大模型进行了全面、客观的评测,包括模型的基础能力、智商表现、在实际应用中为用户带来的效率提升等方面。讯飞星火能够在众多大模型中脱颖而出,再次证明了其在技术实力和用户体验方面的优势,也反映出其在自然语言处理、知识应用、任务执行等能力上得到了广泛认可,进一步巩固了其在国内大模型市场的领先地位 。
5.9 讯飞星火认知大模型 V2.0 发布(2023 年 8 月)
2023 年 8 月 15 日,科大讯飞旗下的讯飞星火认知大模型 V2.0 正式发布,同时发布和升级的还有搭载讯飞星火认知大模型 V2.0 能力的多项应用和产品。新功能如 “代码生成、图片生成、视频生成、星火插件” 等的加入,极大地丰富了模型的应用场景和用户体验。在代码能力方面,科大讯飞董事长刘庆峰指出,“讯飞星火 V2.0 代码能力实现大幅度提升,从业界参考测试集上的效果对比来看,星火 V2.0 基于 Python 和 C++ 进行代码写作能力已高度逼近 ChatGPT,差距仅为 1% 和 2%。” 从 Python 语言的代码生成、补齐、纠错、解释和单元测试生成这几个维度都可以看到,讯飞星火 V2.0 代码生成和补齐已经超过了 Chat GPT,其他几项能力也在快速追赶中。整体上,讯飞星火认知大模型 2.0 版本中,文本生成能力提升了 72%,语言理解能力提升了 78%,知识问答能力提升了 70%,逻辑推理能力提升 60%,数学能力提升 72%,综合能力得到了全面显著的增强 。
5.10 在《麻省理工科技评论》大模型评测中位列第一(2023 年 8 月)
2023 年 8 月 17 日,在《麻省理工科技评论》中国发布的大模型评测报告中,讯飞星火认知大模型 V2.0 凭借在自然语言处理、语音识别、图像识别等领域的强大处理能力在评测中以 81.5 的总分位列第一。该评测使用的测试集包含 600 道题目,覆盖了语言专项、数学专项、理科综合、文科综合、逻辑思维、编程能力、综合知识、安全性共 8 个一级大类。讯飞星火认知大模型 V2.0 在如此全面且严格的评测中夺冠,充分展示了其在多领域知识掌握、复杂问题解决以及模型安全性等方面的卓越表现,也表明其技术实力得到了国际权威机构的高度认可,在全球大模型竞争中占据了重要的一席之地 。
5.11 向全民开放及多场景应用落地(2023 年 9 月)
2023 年 9 月 5 日凌晨,讯飞星火认知大模型正式向全民开放,星火 API、星火助手与星火插件均已全面开放,用户可以通过各大应用商店下载 “讯飞星火” APP 或在 “讯飞星火” 官网进行注册后直接使用。上线之初,讯飞星火认知大模型便与超过 10000 家企业合作对接,诞生了超过 12000 款 AI 助手应用,覆盖多种应用场景,包括营销、创作、编程、聊天、学习、推理等场景。除了软件应用,C 端软硬件也纷纷落地应用,比如科大讯飞 AI 学习机、讯飞智能办公本、讯飞听见、星火语伴等。在教育场景中,AI 学习机借助讯飞星火的能力,能够为学生提供个性化的学习辅导、作业批改等服务;在办公场景下,讯飞智能办公本可以实现智能语音转写、文档智能处理等功能,大大提高了办公效率,真正将大模型技术融入到人们的日常生活和工作中 。
5.12 讯飞星火认知大模型 V3.0 发布(2023 年 10 月)
2023 年 10 月 24 日,讯飞星火认知大模型 V3.0 在第六届世界声博会暨 2023 科大讯飞全球 1024 开发者节上正式发布。科大讯飞的董事长刘庆峰认为 “大模型想要赋能民生百业,需要实现从多轮对话、主动对话再到启发式对话的跨越”,并指出 “大模型不仅要有专业的知识,还要具备个性化的 AI 人设”。在应用场景方面,讯飞星火认知大模型面向不同的受众群体分别推出了星火科研助手、AI 心理伙伴、讯飞星火医疗大模型,以及业界首个集 “大模型 + 具身智能” 一体的人形机器人。另外,讯飞星火认知大模型 V3.0 新增了虚拟人格功能,用户可对其进行人格赋予从而使大模型具有个性化的表达风格和情绪,除此之外,还可以对讯飞星火认知大模型 V3.0 进行特定历史知识和历史的聊天记录的导入,让大模型形成个性化的记忆,进一步增强了模型与用户交互的个性化和趣味性 。
5.13 模型升级与算力平台发布(2023 年 11 月)
2023 年 11 月 13 日,科大讯飞进一步升级了讯飞星火认知大模型 V3.0,在数学自动提炼规律、小样本学习、代码项目级理解能力、多模态指令跟随与细节表达等能力上取得了进展。然而与 GPT-4 相比,讯飞星火认知大模型 V3.0 在复杂知识推理、小样本快速学习、超长文本处理等方面与其还存在差距。为了实现 2024 年上半年对标 GPT-4 的目标,科大讯飞正式启动了更大参数规模的星火大模型训练,并联合了昇腾生态共同发布 “飞星一号” 大模型算力平台。“飞星一号” 平台为后续的模型训练提供了强大的算力支持,通过软硬件协同优化,能够加速模型的训练进程,提高模型训练的效率和质量,助力讯飞星火在技术性能上实现新的突破 。
5.14 在《人工智能大模型体验报告 3.0》中获最高分(2023 年 11 月)
2023 年 11 月 20 日,据新华社研究院中国企业发展研究中心最近发布的年度第三份关于大模型的评测报告 —— 人工智能大模型体验报告 3.0 评测结果显示,由科大讯飞研发的讯飞星火认知大模型在人工智能大模型评测中获得 1775 的最高分,并在基础能力指数、智商指数、工具提效指数三项评测指标中获得第一。这次评测中主流大模型综合指数 3.0 是以 “技术实力” 和 “发展潜力” 为坐标系,选取了包括讯飞星火在内的 10 家最新版本国产主流大模型产品。讯飞星火继同年 8 月在《人工智能大模型体验报告 2.0》中获得总分、智商指数和工具提效指数的第一后,再次在权威评测中取得优异成绩,充分体现了其在技术实力和发展潜力方面的持续领先,以及在模型基础能力、智能表现和对用户工具提效方面的卓越贡献 。
5.15 讯飞星火认知大模型 V3.5 发布(2024 年 1 月)
2024 年 1 月 30 日,讯飞星火认知大模型 V3.5 正式发布,该版本基于支撑万亿参数大模型训练的万卡中国国产算力平台 “飞星一号” 训练,在多项关键能力上实现了显著提升。在逻辑推理、语言理解、文本生成、数学答题、多模态能力等方面均有进步,其中语言理解、数学能力超越 GPT4-Turbo。例如,在处理复杂的逻辑推理题时,能够更准确地分析条件和推理路径,得出正确结论;在语言理解任务中,对语义的把握更加精准,能够理解文本中的隐含信息和微妙语义差异;数学答题方面,对于各类数学难题,无论是代数、几何还是概率统计问题,都能更高效地给出准确解答。此外,该版本首发多情感超拟人合成,使生成的语音在情感表达上更加丰富、自然,接近真实人类的情感表现;推出星火智能体平台,为开发者和企业提供了更便捷、高效的智能体构建和应用开发环境,推动了大模型在更多领域的创新应用 。
5.16 讯飞星火大模型升级及应用拓展(2024 年 4 月)
2024 年 4 月 26 日,讯飞星火大模型进行更新并发布其首个长文本、长图文、长语音大模型,在功能拓展上取得了新的突破。长文本处理能力的提升,使模型能够更深入、全面地理解和分析长篇文档,无论是学术论文、商业报告还是法律法规文件,都能准确提取关键信息、总结核心要点,并进行合理的推理和解读。长图文处理方面,模型可以识别图文结合的复杂内容,对图片中的信息与文字描述进行综合理解和处理,例如在分析一份带有图表和文字说明的市场调研报告时,能够精准解读图表数据含义,并结合文字阐述进行全面分析。长语音处理能力让模型能够高效处理长时间的语音输入,实现准确的语音转文字以及对语音内容的深度理解和分析。这些能力的升级,进一步赋能招投标应用、合同应用等业务场景。在招投标应用中,能够快速分析招标文件,生成高质量的投标文件;在合同应用方面,可对合同条款进行智能审查、风险评估等,提高了相关业务的处理效率和质量 。
5.17 讯飞星火 4.0 Turbo 发布及深度推理模型 X1 首发(2025 年 1 月)
2025 年 1 月 15 日,讯飞星火 4.0 Turbo 的底座能力再次升级,在多项核心能力上实现了质的飞跃。根据真实数据背靠背的测试,讯飞星火 4.0 Turbo 七大核心能力全面超过 GPT-4 Turbo,数学和代码能力超越 GPT-4o,展现出了强大的技术实力。同时,首发国内首个基于全国产算力平台训练的具备深度思考和推理能力的大模型 —— 讯飞星火深度推理模型 X1,该模型解决了国产算力大规模集群训练在深度思考和长思维链推理方面面临的全新挑战,用更少的算力,更小的尺寸,达到业界一流效果,获得了诸多客户、投资人、C 端用户自主测试后的一致好评。不过,刘庆峰坦言,由于讯飞星火 X1 的部分任务确实很难,且在国产化算力平台上的训练时间较短、数据量较少,还有很大提升空间,预计今年一季度将有新升级,持续优化模型性能,提升其在复杂推理任务中的表现 。
5.18 多模态等重点能力升级及应用落地(2025 年)
在 2025 年,科大讯飞在语音多模态等重点能力上持续发力,取得了一系列令人瞩目的成果。首发了端到端的语音同传大模型,极大地提升了语音翻译的效率和准确性,在跨语言交流场景中,能够快速、精准地实现语音的实时翻译,为国际商务会议、跨国交流活动等提供了便捷的语言服务。极速超拟人数字人交互的推出,使数字人的动作、表情、语言更加自然流畅,与用户的交互体验更加真实生动,可广泛应用于虚拟主播、智能客服、虚拟培训等领域。多模态影像大模型的发布,首次覆盖全国 202 个方言区域,语音识别大模型能力相对提升超 40%,超拟人合成能力相对提升超 30%,图文识别能力相对提升超 60% 。这些进展不仅丰富了模型与用户交互的方式,也拓宽了其在多元场景下的应用范围。
在教育领域,讯飞星火凭借其强大的语言理解和生成能力,为学生打造了个性化学习方案。例如,通过对学生作业和考试数据的分析,模型能够精准定位学生的知识薄弱点,并提供针对性的学习建议和辅导材料。在医疗场景中,讯飞星火医疗大模型 2.0 的发布意义重大,其在医疗海量知识问答、复杂语言理解、专业文书生成、诊断治疗推荐、多轮交互以及多模态交互等六大核心场景能力显著提升,持续保持业界领先。比如,医生在诊断过程中,可以借助该模型快速查询罕见病的相关资料、参考相似病例的诊断思路,辅助制定更精准的治疗方案 。与此同时,基于讯飞星火医学影像大模型打造的智能医学影像助手,能够赋能影像诊断的全流程,从智能质控环节帮助技师评估图像质量,到智能诊断环节辅助医师生成诊断报告,再到智能读片环节助力临床医师制定诊疗方案,为医疗行业的智能化转型提供了有力支撑 。
在商业领域,讯飞星火助力企业实现智能客服升级。企业通过将讯飞星火集成到客服系统中,客服机器人能够更准确理解客户的问题,无论是常见的产品咨询,还是复杂的售后问题,都能迅速给出专业且贴心的回答,大大提升了客户满意度和服务效率。例如,在电商行业,当客户询问某款商品的使用方法、尺码建议或者物流配送情况时,智能客服可以快速响应,提供详细解答,减少客户等待时间,促进交易达成 。在智能汽车领域,搭载讯飞星火的车载系统为驾驶者带来了更便捷、智能的交互体验。驾驶者可以通过语音指令轻松完成导航设置、音乐播放、电话拨打等操作,并且系统能够根据驾驶者的情绪和语境,提供个性化回应。比如当驾驶者疲劳时,系统会贴心地播放提神的音乐,并给予温馨提示 。
从技术创新角度来看,讯飞星火的持续发展离不开底层技术的不断突破。科大讯飞在算力平台建设、算法优化、数据处理等方面投入了大量资源。例如,“飞星二号” 国产超大规模智算平台的启动,为模型训练提供了强大的算力保障,使得讯飞星火能够处理更复杂的任务、学习更海量的数据,从而不断提升自身的智能水平。在算法方面,研发团队不断优化模型架构,提升模型的学习效率和泛化能力,使其在面对各种复杂场景和任务时,都能给出高质量的解决方案 。
在国际竞争中,讯飞星火也展现出了强劲的实力。与国际上其他知名大模型相比,讯飞星火在中文语言处理、语音交互以及特定行业应用等方面具有独特优势。其对中文语义的理解更加深入,能够更好地处理中文语境中的微妙含义和文化特色,在服务中国本土用户以及开展中文相关业务的国际客户时,具有明显的竞争力 。例如,在中文文学创作、古籍翻译等任务中,讯飞星火能够生成更符合中文表达习惯和文化内涵的内容。同时,讯飞星火积极拓展国际市场,通过与国际合作伙伴的合作,将其先进的技术和应用推广到全球更多地区,提升中国人工智能技术的国际影响力 。
展望未来,讯飞星火有望在更多领域实现深度融合和创新应用。随着人工智能技术与物联网、区块链等新兴技术的不断融合,讯飞星火可能会在智能家居、智能金融、智能工业等领域发挥更大作用。例如,在智能家居场景中,讯飞星火能够实现对家庭设备的全面智能控制,通过对家庭成员生活习惯的学习,自动调节家居环境,实现真正的智能化生活 。在智能金融领域,模型可以辅助金融机构进行风险评估、客户信用评级以及智能投顾等业务,提高金融服务的效率和准确性 。同时,科大讯飞将继续加大研发投入,不断提升讯飞星火的性能和功能,推动人工智能技术在更多场景下的普及和应用,为社会发展和人们生活带来更多便利和价值。

版权与内容声明:
本文旨在进行信息分享与观点交流。文中所涉案例与数据基于可获得的信息整理,力求但不保证完全无误或适用于所有情形。如对文中任何内容的准确性、适当性或版权归属存有疑问,请通过 公众号后台留言/邮箱告知,我们将认真核实并妥善处理。