大语言模型通识微课课件：强化学习分类.pptx

下载文档

1
0
约1.61千字
约 10页
2024-10-12 发布于山东
举报
版权申诉
保障服务

大语言模型通识微课课件：强化学习分类.pptx

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

;在强化学习中，智能体是在没有“老师”的情况下，通过考虑自己的最终成功或失败，根据奖励与惩罚，主动从经验中学习，以使未来的奖励最大化。

按给定条件，强化学习可分为基于模式强化学习和无模式强化学习，以及主动强化学习和被动强化学习。强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。求解强化学习问题所使用的算法可分为策略搜索算法和值函数算法两类。在强化学习中使用深度学习模型，形成了深度强化学习。;参考下国际象棋，将其视为监督学习问题。下棋智能体把棋盘局面作为输入并返回对应招式，通过为它提供关于棋盘局面的样本来训练此函数，其中每个样本都标有正确的走法。假设我们恰好有一个可用的数据库，其中包括数百万局象棋大师的对局，每场对局都包含一系列局面和走法。可以认为获胜者的招式即便不总是完美但也是较好的。由此得到一个很有前途的训练集。

问题在于，与象棋局面可能构成的空间（约1040个）相比，样本相当少（约108个）。在新的对局中，人们很快就会遇到与数据库中的局面明显不同的局面。那么，此时经过训练的智能体很可能会失效。;取而代之的另一种选择是使用强化学习，在这种学习中，智能体将与世界进行互动，并不时收到反映其表现的奖励（强化）。例如，在国际象棋中，获胜的奖励为1，失败的奖励为0，平局的奖励为1/2。强化学习的目标也是相同的：最大化期望奖励总和。

想象一下玩一个你不了解规则的新游戏，那么在采取若干个行动后，裁判会告诉你“你输了”。这个简单的例子就是强化学习的一个缩影。

从设计角度看，向智能体提供奖励信号通常比提供有标签的行动样本要容易得多，人们也不必是相关领域的专家。;然而，事实证明，一点点的专业知识对强化学习会有很大的帮助。考虑国际象棋和赛车比赛的输赢奖励，这些活动在绝大多数状态下智能体根本没有得到任何有信息量的奖励信号。

在网球和板球等游戏中，我们可以轻松地为每次击球得分与跑垒得分提供额外的奖励。在赛车比赛中，我们可以奖励在赛道上朝着正确方向前进的智能体。在学习爬行时，任何向前的运动都是一种进步。这些中间奖励将使学习变得更加容易。;考虑一个简单情形：有少量动作和状态，且环境完全可观测，其中智能体已经有了能决定其动作的固定策略。智能体将尝试学习效用函数——从状态出发，采用策略得到的期望总折扣奖励，这称之为被动学习智能体。被动学习任务类似于策略评估任务，可以将其表述为直接效用估计、自适应动态规划和时序差分学习。;主动学习智能体可以自主决定采取什么动作。可以从自适应动态规划智能体开始入手，并考虑如何对它进行修改以利用这种新的自由度。智能体首先需要学习一个完整的转移模型，其中包含所有动作可能导致的结果及概率，而不仅仅是固定策略下的模型。;一些领域过于复杂，以至于很难在其中定义强化学习所需的奖励函数。例如，我们到底想让自动驾驶汽车做什么？当然，我们希望它到达目的地花费的时间不要大长，但它也不应开得大快，以免带来不必要的危险或超速罚单；它应该节省能源：它应该避免碰撞或由于突然变速给乘客带来的剧烈晃动，但它仍可以在紧急情况下猛踩利车，等等，为这些因素分配权重比较困难。更糟糕的是，我们几乎必然会忘记一些重要的因素。通常，忽略一个因素通常会导致学习系统为这个被忽略的因素分配一个极值，这种情况下，汽车可能会为了使剩余的因素最大化而进行极不负责任的驾驶。;一种解决方法是在模拟中进行大量的测试并关注有问题的行为，再尝试通过修改奖励函数以消除这些行为。另一种解决方法是寻找有关适合的奖励函数的其他信息来源。这种信息来源之一是奖励函数已经完成优化（或几乎完成优化）的智能体的行为，在这个例子中来源可以是专业的人类驾驶员。

学徒学习研究这样的问题：在提供了一些对专家行为观测的基础上，如何让学习表现得较好。以专业驾驶算法为例，告诉学习者“像这样去做”，至少有两种方法来解决学徒学习问题。;

您可能关注的文档

文档评论（0）

ning2021 + 关注: 实名认证

内容提供者

中医资格证持证人

该用户很懒，什么也没介绍

咨询Ta 进入空间

领域认证该用户于2023年05月10日上传了中医资格证

1亿VIP精品文档

更多 >

大语言模型通识微课课件：强化学习分类.pptx