新年好,我是廖尔摩斯丨设计大侦探,一位从业超过 13 年的全链路产品设计师,同时也是一家为企业提供数字化产品设计服务的设计工作室负责人!
今天继续向大家分享我的 AI 学习笔记——强化学习 (Reinforcement Learning),希望你能从这篇笔记中有收获!
我们先来看业内对强化学习的标准定义:强化学习(Reinforcement Learning)是一种通过"试错(Trial and Error)"进行学习的模式。它不依赖静态的标注数据集,而是让 AI 作为智能体(Agent)在特定环境(Environment)中采取行动(Action),并根据结果获得奖励(Reward)或惩罚(Penalty)。
接下来,我们用训练小狗的例子来比喻会更形象。假设我们要训练 AI 这只小狗学会把飞盘拿回来。我们把飞盘甩出去,小狗一开始可能不知道该怎么做(这是试错)。当它开始跑出去后(这是行动),如果没有把飞盘拿回来,我们就不给它骨头(这是惩罚);而如果它把飞盘拿回来,就能得到骨头(这是奖励)。经过多次尝试,小狗逐渐理解了:把飞盘拿回来就能获得奖励。这就是强化学习的过程。

强化学习的想法来自 20 世纪初的心理学实验。心理学家斯金纳 (B. F. Skinner) 做过一个实验:小白鼠按下按钮就能得到食物,慢慢地它就学会了经常去按这个按钮。这个"做某事 → 得到奖励 → 重复做"的过程,就是强化学习最早的雏形。
到了 1980 年代,两位计算机科学家理查德·萨顿 (Richard Sutton) 和安德鲁·巴托 (Andrew Barto)(他们被称为强化学习之父)把这个想法变成了数学公式。他们认为,机器不需要提前知道正确答案,只要像动物一样,通过不断尝试和犯错,找到能获得最多奖励的方法就行了。
强化学习真正震撼世界的时刻是在 2016 年。DeepMind 公司(创始人是戴米斯·哈萨比斯)在大卫·席尔瓦的带领下,把强化学习和深度学习结合起来,创造了阿尔法围棋 (AlphaGo)。在与世界冠军李世石的比赛中,AlphaGo 下出了许多人类从未想过的招数(被称为"神之一手")。它完全靠"赢棋就是奖励"这个简单规则,通过大量自我对弈练习,最终下出了连设计者都没预料到的高超棋法。那一刻,全世界都看到了机器如何通过自己摸索,学会超越人类的智慧。
在实际应用中,强化学习具有显著的动态适应性,能根据用户的实时行为和反馈持续调整策略:

强化学习已在多个领域展现出应用价值。通过与环境交互并根据反馈优化策略,它正在改变多个行业的运作方式。以下是几个典型应用场景:
在之前的知识卡片中,我们已经分享了机器学习、监督学习和无监督学习。那么,强化学习与这些概念是什么关系呢?
其实,强化学习是机器学习的一个重要分支。机器学习包括三大类型:监督学习(需要标注数据)、无监督学习(发现数据中的模式)和强化学习(通过试错学习)。强化学习的独特之处在于,它更注重决策过程,通过与环境持续交互来优化长期目标,而非仅从静态数据中学习规律。
关于这三者的关系,图灵奖得主、深度学习三巨头之一的杨立昆 (Yann LeCun) 有一个生动的比喻——他把机器学习比作一个"黑森林蛋糕":
蛋糕胚(无监督学习):机器理解世界运行规律的基础,占据绝大部分体积。
蛋糕上的糖衣(监督学习):人类给出的明确指导,虽然体积小,却能让机器学会说话和识图。
蛋糕顶部的樱桃(强化学习):只需极少量数据(奖励信号),却决定了 AI 能否通过行动改变世界、达成复杂目标。
系统梳理完强化学习后,我有了一个深刻认识:那些看似碎片化、彼此独立的学习内容,实际上正在逐步构建起 AI 学科的知识体系。当我将强化学习与之前学过的知识点关联时,原本模糊的知识脉络突然变得清晰起来。那些曾经反复记忆却总记不牢、容易混淆的概念和术语,如今在系统化的学习笔记中,变得生动有趣、易于理解。
最后,让我们回顾强化学习的核心概念——强化学习是一种通过"试错"进行学习的模式,不依赖静态的标注数据集,而是让 AI 作为智能体在特定环境中采取行动,并根据结果获得奖励或惩罚。
感谢你的阅读,希望我的学习笔记能对你有所帮助!
从 2022 年创办至今,设计大侦探已经拆解以下产品:
医疗 Medical
互联网医院产品大侦探(1)丨7000字拆解北京协和医院APP
在线教育 Online Education
侦探日记Vol.01丨5000字拆解小猿AI的12种练习题设计
Busuu博树丨让1.2亿学习者大胆开口学英文的全球最大语言学习社区
Vocabulary产品拆解 丨像刷短视频一样学习很酷的英文单词
万字拆解Class 官网体验旅程丨 如何用讲故事的方式来介绍自己的产品
知识付费
向阅读致敬!微信读书产品设计策略推导——你要一辆跑得更快的马车,但它给了你一辆法拉利!
社交媒体
SaaS
SAAS产品体验日记(一)丨8000字深度拆解微盟店铺装修功能设计
音乐
物流
顺丰速运产品拆解丨14500字,76个核心功能为你揭秘顺丰的快递世界
招聘
智联招聘产品拆解丨这款28年的新能源老爷车,开启了直播招聘新时代
体育
工具
出行
爱彼迎 Airbnb 产品拆解丨一款累计超过 20 亿人次入住的 APP 有哪些设计亮点?
金融
房产