当前位置：首页>学习笔记>热点技术学习笔记之一:生成式AI-GenAI

热点技术学习笔记之一:生成式AI-GenAI

2026-04-24 10:16:15

生成式人工智能（Generative AI，简称 Gen AI）是人工智能（AI）的一种，它能够根据用户的提示或请求，生成原创内容，例如文本、图像、视频、音频或软件代码。生成式人工智能依赖于被称为深度学习模型的复杂机器学习模型算法，这些模型模拟人脑的学习和决策过程。这些模型的工作原理是识别和编码海量数据中的模式和关系，然后利用这些信息来理解用户的自然语言请求或问题，并以相关的新内容作为响应。简而言之，生成式人工智能（GenAI）是人工智能的一个专门分支，旨在创造新内容，而不仅仅是分析或分类现有数据。它的工作原理是从海量数据集中学习模式、结构和统计关系，从而预测和生成原创输出。人工智能在过去十几年来一直是热门技术话题，但生成式人工智能，特别是2022年ChatGPT的问世及deepseek的突破，将人工智能推向了全球新闻头条，并引发了前所未有的人工智能创新和应用浪潮。

生成式人工智能为个人和组织带来了巨大的生产力提升，尽管它也带来了切实的挑战和风险，但企业仍在积极探索如何利用这项技术改进内部工作流程，并丰富其产品和服务。

本文是笔者学习GenAI的笔记，大多数信息收集于网络，整理成八部分，供同仁参考。

第一部分：生成式人工智能的工作流程

主要分为三个阶段：

第一阶段：训练（Training）：创建一个基础模型，该模型可作为多个生成式人工智能应用的基础。

生成式人工智能从基础模型开始，这是一种深度学习模型，可作为多种不同类型的生成式人工智能应用程序的基础。当今最常见的基础模型是为文本生成应用程序创建的大型语言模型（LLM），但也有用于图像生成、视频生成、声音和音乐生成的基础模型以及可以支持多种内容生成的多模态基础模型。为了创建基础模型，从业者在大量原始、非结构化、未标记数据（例如从互联网或其他大型数据源中挑选的TB级数据）上训练深度学习算法。在训练期间，该算法执行并评估数百万次“填空”练习，尝试预测序列中的下一个元素，例如句子中的下一个单词、图像中的下一个元素、代码行中的下一个命令，并不断调整自身以最小化其预测与实际数据（或“正确”结果）之间的差异。这种训练的结果是一个由参数、数据中实体、模式和关系的编码表示组成的神经网络，它可以响应输入或提示自主生成内容。这种训练过程是计算密集型、耗时且昂贵的：它需要数千个集群图形处理单元 (GPU) 和数周的处理时间，所有这些都花费数百万美元。开源基础模型项目能使新一代 AI 开发人员能够避免这一步及其成本。

第二阶段：调优（Tuning）：根据特定的生成式人工智能应用调整基础模型。

从比喻意义上讲，基础模型就像一个通才：它了解很多类型的内容，但通常无法以所需的准确度或保真度生成特定类型的输出。因此，必须对模型进行微调，使其适应特定的内容生成任务。这可以通过多种方式实现。

微调（Fine tuning）：微调是指向模型输入针对特定内容生成应用的标注数据，例如应用可能收到的问题或提示，以及格式符合要求的正确答案。例如，如果一个开发团队想要创建一个客户服务聊天机器人，他们会创建成百上千份包含标注的客户服务问题和正确答案的文档，然后将这些文档输入到模型中。微调是一项劳动密集型工作。开发人员通常会将这项任务外包给拥有庞大数据标注团队的公司。

基于人工反馈的强化学习 (RLHF：Reinforcement learning with human feedback)

在 RLHF 中，用户对生成的内容进行评价，模型可以利用这些评价来更新自身，从而提高准确性或相关性。通常，RLHF涉及人们对同一提示的不同输出进行“评分”。但它也可以很简单，比如让人们与聊天机器人或虚拟助手进行语音交互，并纠正其输出。

第三阶段：生成、评估和重新调优（Generation, evaluation and retuning）：评估生成式人工智能应用的输出，并持续改进其质量和准确性。

开发者和用户会持续评估其生成式人工智能应用的输出结果，并可能每周一次对模型进行微调，以提高准确性或相关性。（相比之下，基础模型本身的更新频率要低得多，可能每年或每18个月更新一次。）另一种提升生成式人工智能应用性能的方法是检索增强生成（RAG：retrieval augmented generation）。RAG是一个框架，用于扩展基础模型，使其能够利用训练数据之外的相关数据源，从而补充和优化原始模型中的参数或表示。RAG可以确保生成式人工智能应用始终能够获取最新信息。此外，通过RAG访问的额外数据源对用户来说是透明的，而原始基础模型中的知识则不然。

第二部分：生成式人工智能模型架构及其演变过程

真正意义上的生成式人工智能模型，即能够自主按需生成内容的深度学习模型，在过去十几年间不断发展演进。这一时期的里程碑式模型架构包括：

变分自编码器 (VAE：Variational autoencoders)，它推动了图像识别、自然语言处理和异常检测领域的突破。

自编码器是一种深度学习模型，由两个相互连接的神经网络组成：一个神经网络将大量非结构化、未标记的训练数据编码（或压缩）成参数，另一个神经网络解码这些参数以重建内容。从技术上讲，自编码器可以生成新的内容，但它更适用于压缩数据以便存储或传输，以及解压缩以供使用，而不是生成高质量的内容。变分自编码器（VAE）于2013年问世，它像自编码器一样可以对数据进行编码，但可以解码出内容的多个新变体。通过训练VAE生成朝向特定目标的变体，它可以随着时间的推移“聚焦”到更准确、更高保真度的内容。VAE 的早期应用包括异常检测（例如，医学图像分析）和自然语言生成。

生成对抗网络 (GAN：Generative adversarial networks ) 和扩散模型，它们提高了先前应用的准确性，并催生了一些最早的用于生成逼真图像的人工智能解决方案。

生成对抗网络（GAN）于2014年问世，它也由两个神经网络组成：生成器，用于生成新的内容；判别器，用于评估生成数据的准确性和质量。这些对抗算法促使模型生成越来越高质量的输出结果。GAN通常用于图像和视频生成，但也能生成各种领域的高质量、逼真内容。它们在风格迁移（例如，将照片的风格更改为铅笔素描）和数据增强（创建新的合成数据以增加训练数据集的规模和多样性）等任务中表现尤为出色。

扩散模型（Diffusion models）也于2014年提出，其工作原理是首先向训练数据中添加噪声，直到数据变得随机且无法识别，然后训练算法迭代地扩散噪声，最终生成所需的输出。扩散模型的训练时间比VAE或GAN更长，但最终能够提供更精细的输出控制，尤其适用于高质量图像生成工具。OpenAI的图像生成工具DALL-E就是基于扩散模型的。

Transformer，它是当今最主流的基础模型和生成式人工智能解决方案背后的深度学习模型架构。

Transformer模型最早由Ashish Vaswani等人于2017年发表的一篇论文中提出，它改进了编码器-解码器范式，使基础模型的训练方式以及其生成内容的质量和范围都得到了显著提升。这些模型是当今大多数热门生成式人工智能工具的核心，例如ChatGPT、GPT-4、Copilot、BERT、Bard和Midjourney等等。Transformer模型使用一种称为注意力机制的概念，它能够确定并关注数据序列中最重要的信息，从而：

处理整个数据序列，例如句子，而不是单个单词；
捕捉数据序列中的上下文；
将训练数据编码为嵌入（也称为超参数），这些嵌入表示数据及其上下文。

除了训练速度更快之外，Transformer模型在自然语言处理 (NLP) 和自然语言理解 (NLU) 方面也表现出色，能够生成更长的数据序列，例如，不仅可以回答问题，还可以生成诗歌、文章或论文，其准确率和质量都优于其他深度生成式 AI 模型。Transformer模型还可以进行训练或调优，以便使用各种工具（例如电子表格应用程序、HTML、绘图程序）以特定格式输出内容。

第三部分：生成式人工智能可以创造什么？

生成式人工智能可以创造跨越多个领域的多种类型的内容。

文本：

生成模型，尤其是基于Transformer的生成模型，能够生成连贯且与上下文相关的文本，涵盖从说明书、文档到宣传册、电子邮件、网站文案、博客、文章、报告、论文，甚至创意写作等各种类型。它们还可以执行重复性或繁琐的写作任务（例如，撰写文档摘要或网页元描述），从而解放写作者的时间，让他们能够从事更具创意和价值的工作。

图像和视频：

图像生成技术，例如DALL-E、Midjourney和Stable Diffusion，可以创建逼真的图像或原创艺术作品，并执行风格迁移、图像到图像转换以及其他图像编辑或图像增强任务。新兴的AI视频工具可以根据文本提示创建动画，并且能够比其他方法更快、更经济高效地为现有视频应用特效。

声音、语音和音乐：

生成模型可以合成自然流畅的语音和音频内容，用于支持语音功能的AI聊天机器人和数字助理、有声读物旁白以及其他应用。同样的技术可以生成原创音乐，模仿专业作品的结构和音色。

软件代码：

生成式人工智能可以生成原创代码、自动补全代码片段、在不同编程语言之间进行转换并概括代码功能。它使开发人员能够快速构建原型、重构和调试应用程序，同时为编码任务提供自然语言界面。

设计和艺术：

生成式人工智能模型可以生成独特的艺术和设计作品，或辅助图形设计。应用包括动态生成环境、角色或虚拟形象，以及为虚拟仿真和视频游戏生成特效。

模拟和合成数据：

生成式人工智能模型可以训练生成合成数据，或基于真实或合成数据生成合成结构。例如，生成式人工智能被应用于药物研发，以生成具有所需特性的分子结构，从而辅助设计新的药物化合物。

第四部分：生成式人工智能的优势及益处

生成式人工智能最显而易见的优势在于其更高的效率。由于它可以按需生成内容和答案，因此它能够加速或自动化劳动密集型任务，降低成本，并让员工腾出时间从事更高价值的工作。但生成式人工智能还能为个人和组织带来其他诸多益处。

增强创造力：

生成式人工智能工具可以通过自动化头脑风暴激发创造力，生成多个新颖的内容版本。这些变体还可以作为起点或参考，帮助作家、艺术家、设计师和其他创作者突破创作瓶颈。

改进（并加快）决策：

生成式人工智能擅长分析大型数据集，识别模式并提取有意义的见解，然后基于这些见解生成假设和建议，从而帮助高管、分析师、研究人员和其他专业人士做出更明智、数据驱动的决策。

动态个性化：

在推荐系统和内容创作等应用中，生成式人工智能可以分析用户偏好和历史记录，并实时生成个性化内容，从而带来更贴合用户需求、更具吸引力的用户体验。

持续可用性：

生成式人工智能可以持续运行，不会疲劳，从而为客户支持聊天机器人和自动回复等任务提供全天候可用性。

第五部分：生成式人工智能的应用案例

以下仅列举了企业中部分生成式人工智能的应用案例。随着技术的进步以及企业将这些工具融入工作流程，我们有望看到更多应用案例。

客户体验：

营销机构可以利用生成式人工智能工具撰写博客、网页、宣传资料、电子邮件等内容，从而节省时间并提升内容制作效率。此外，生成式人工智能解决方案还可以根据广告投放的时间、地点和目标受众，实时生成高度个性化的营销文案和视觉效果。它将为下一代聊天机器人和虚拟代理提供支持，这些机器人和代理可以提供个性化回复，甚至代表客户发起操作。与上一代基于有限数据训练、仅用于特定任务的对话式人工智能模型相比，这是一个显著的进步。

软件开发和应用现代化：

代码生成工具可以自动化并加速编写新代码的过程。代码生成还有潜力通过自动化大量重复性编码工作，显著加快应用现代化进程，从而实现传统应用在混合云环境下的现代化。

数字化劳动力：

生成式人工智能可以快速起草或修改合同、发票、账单和其他数字或纸质“文件”，使使用这些文件的员工能够专注于更高层次的任务。这可以加速几乎所有企业领域的工作流程，包括人力资源、法律、采购和财务。

科学、工程和研究：

生成式人工智能模型可以帮助科学家和工程师为复杂问题提出创新解决方案。例如，在医疗保健领域，生成式模型可以用于合成医学图像，以训练和测试医学成像系统。

第六部分：生成式人工智能、人工智能代理和智能体人工智能

三者的区别如下，

人工智能代理是一种自主的人工智能程序——它能够代表用户或其他系统执行任务并完成目标，无需人工干预，只需设计自己的工作流程并使用可用工具（其他应用程序或服务）即可。智能体人工智能则是由多个人工智能代理组成的系统，这些代理协同工作，以完成比系统中任何单个代理所能完成的更复杂的任务或更宏大的目标。

与在预定义约束下运行且需要人工干预的聊天机器人和其他人工智能模型不同，人工智能代理和智能体人工智能展现出自主性、目标驱动行为以及对不断变化的环境的适应能力。“代理”和“智能体”指的是这些模型的自主性，或者说它们独立且有目的地行动的能力。

可以将人工智能代理视为生成式人工智能之后的自然发展阶段。生成式人工智能模型专注于基于学习到的模式创建内容；而代理则利用这些内容与其他代理和其他工具进行交互，从而做出决策、解决问题并完成任务。例如，一款人工智能应用程序或许能够根据您的工作安排告诉您攀登珠穆朗玛峰的最佳时间，但旅行社代理人不仅可以告诉您最佳时间，还可以使用在线旅行服务为您预订最佳航班，并在尼泊尔预订最方便的酒店房间。

第七部分：GenAI面临的挑战、局限性和风险

生成式人工智能在相对较短的时间内取得了显著进步，但仍然给开发者、用户和广大公众带来了重大挑战和风险。以下列举了一些最严重的问题及其应对方法。

“幻觉”和其他不准确的输出：

人工智能幻觉是指生成式人工智能输出的荒谬或完全不准确的内容，但这些内容往往看起来完全合情合理。一个经典的例子是，一位律师在准备一起备受瞩目的案件时，使用生成式人工智能工具进行研究，结果该工具“生成”了几个案例，包括引述和归属信息，但这些案例完全是虚构的。一些从业者认为，在平衡模型的准确性和创造性能力时，幻觉是不可避免的。但开发者可以实施一些预防措施，称为“护栏”，将模型限制在相关或可信的数据源范围内。持续的评估和调整也有助于减少幻觉和不准确的情况。

输出不一致：

由于生成式人工智能模型具有变分或概率性，相同的输入可能会产生略有不同或显著不同的输出。这在某些应用中可能是不理想的，例如客户服务聊天机器人，因为这些应用需要或期望输出的一致性。通过提示工程，迭代地改进或组合提示，用户可以获得能够持续提供他们想要的生成式人工智能应用结果的提示。

偏见：

生成式模型可能会学习训练数据或标注数据、外部数据源或用于调整模型的人工评估者中存在的社会偏见，从而生成带有偏见、不公平或冒犯性的内容。为了防止模型输出出现偏见，开发人员必须确保训练数据的多样性，制定防止训练和调整过程中出现偏见的指导原则，并持续评估模型输出的偏见和准确性。

缺乏可解释性和指标：

许多生成式人工智能模型都是“黑箱”模型，这意味着理解它们的决策过程可能非常困难甚至不可能；即使是创建底层算法的工程师或数据科学家，也无法理解或解释算法内部究竟发生了什么，以及它是如何得出特定结果的。可解释的人工智能实践和技术可以帮助从业者和用户理解并信任生成模型的流程和输出。评估和比较生成内容的质量也可能充满挑战。传统的评估指标可能无法捕捉到创造性、连贯性或相关性等细微差别。开发稳健可靠的生成式人工智能评估方法仍然是一个活跃的研究领域。

安全、隐私和知识产权威胁：

生成式人工智能模型可能被利用来生成极具说服力的网络钓鱼邮件、虚假身份或其他恶意内容，从而诱骗用户采取危及安全和数据隐私的行动。开发人员和用户需要谨慎，确保输入模型的数据（在调优过程中或作为提示的一部分）不会泄露自身的知识产权 (IP) 或任何其他组织保护的知识产权信息。他们还需要监控输出内容，以防出现泄露自身知识产权或侵犯他人知识产权的新内容。

深度伪造：

深度伪造是指利用人工智能生成或操纵图像、视频或音频，以欺骗人们相信他们正在看到、听到或看到某人做了或说了他们从未做过或说过的事情。它们是生成式人工智能被恶意利用的最令人不寒而栗的例子之一。大多数人都熟悉用于损害名誉或传播虚假信息的深度伪造。最近，网络犯罪分子将深度伪造技术应用于网络攻击（例如，在语音钓鱼诈骗中使用虚假声音）或金融诈骗。研究人员正在努力开发能够更准确地检测深度伪造的人工智能模型。与此同时，用户教育和最佳实践（例如，不分享未经核实或未经审查的争议性内容）可以帮助减少深度伪造造成的危害。

第八部分：蜂窝网络的AI

曾经的愿景如今正迅速变为现实。GenAI快速发展，活跃用户数已飙升至数十亿。数百万人已开始佩戴增强现实（AR）眼镜，且很快将能体验无处不在的个性化AI功能，并将AI计算负载将卸载至网络。当前正处于由AI、云和移动技术共同定义的战略拐点。5G已成为有史以来增长最快的网络技术。与此同时，AI虽正经历爆发式增长，但其形态正快速从数据中心的集中式模式，转向分布于我们的终端设备、车辆和城市中，并通过5G连接的分布式自主智能体模式。这些新型AI系统的运作方式截然不同：它们持续交互、协同学习，并以机器级时效行动。要释放其全部潜力，就需要一种新型无线基础架构，用以连接网络、云、数十亿台设备与传感器，以及数亿个家庭和企业。这一智能架构将催生大规模数字孪生（机器乃至整个城市的精确虚拟版本），使企业可以先通过实时仿真测试复杂任务，然后在真实环境中部署。它将为全球数十亿消费者提供实时语言翻译、欺诈检测等服务。对于任务关键型服务，它将通过服务等级协议予以保障，为应急响应人员提供超高可靠性连接。先进的连接能力是这个架构的统一脉络。通过将强大的5G网络与云、边缘计算、全网自助智能及完善的数据治理实践相结合，我们正在构建能实时感知、预测并行动的全新基础架构。在6G时代，全球所有应用、企业与政府的需求都将通过定制的网络能力与分布式计算得到实时满足。经济高效、对实时性敏感的AI推理将变得至关重要，这意味着提供先进连接能力的网络将在未来扮演更重要的角色。6G网络将具有AI原生特性，将上行速率提升10倍，具备对未来AI与增强现实（AR）设备至关重要的全频谱与带宽灵活性。同时，它们还将显著提高频谱效率，而且能效要高得多。开放且安全，可互操作的架构设计非常重要，采用开放的云原生与AI原生原则可确保互操作性，使AI原生系统能够为现有云原生网络注入新能力。成功的衡量标准在于实际成效：经过验证的性能、总体拥有成本与能效。最重要的是，该架构必须建立在信任与开放的基础之上。

同样重要的是，网络设计必须优先保障安全。一个安全、有弹性且能保护隐私的网络平台，是以经过验证的性能来满足社会核心需求，支撑任务关键型与业务关键型应用的坚实基石。这要求我们采用零信任架构——该架构在所有部署模式与产品生命周期的所有阶段提供内置的安全自动化与保障能力。增强的安全机制结合基于AI的安全与信任管理体系，可帮助对已知和未知威胁作出实时响应。6G/AI智能网格必须采用由可信赖的合作伙伴提供的可验证安全的硬件与软件，从而为企业和政府提供充分的可信度与管控能力。