- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
-PAGE53-
最大熵强化学习基础理论概述
目录
TOC\o1-3\h\u6423最大熵强化学习基础理论概述 1
318241.1引论 1
270311.2标准强化学习框架和概率图模型 1
281861.3最大熵强化学习理论框架 2
20401.3.1最大熵强化学习概率图模型 2
242811.3.2概率推断 4
237321.3.3最大熵强化学习目标函数与最优策略 7
194161.4小结 11
1.1引论
机器人强化学习领域近些年受到越来越广泛的关注,其原因为以下两点:1)机器人系统内部本身存在的摩擦力和噪声等因素提高了传统控制方法的控制难度,增加了传统控制方法的局限性;2)深度强化学习方法是一种基于“经验”的控制方法,其避免了机器人系统复杂的动力学建模和设计,在无需知道机器人系统任何先验知识的情况下,凭借机器人智能体与外界环境不断地交互而学得有关外部环境的知识,直到学到最优的控制策略。系统和任务越复杂,深度强化学习方法就越适用,例如空间连续型机械臂。最大熵强化学习方法由于其样本效率高以及最大熵策略探索能力好,在不需要进行任何的额外操作和人工干预下,已经被广泛用于传统刚性机械臂任务。因此,本文研究的是在最大熵强化学习框架下的连续型机械臂控制任务。
1.2标准强化学习框架和概率图模型
在标准最优控制和深度强化学习框架下,通常用表示状态,表示动作,状态和动作都可能是连续或离散的;表示转移概率模型,其一般都是未知的,状态通常是跟着转移概率模型改变;表示一个片段(episode)的训练步长,表示每当训练完时间步长之后,环境就会重置并重新开始训练时间步长;是折扣因子,表示越是未来的状态和动作产生的奖励对当前的累计回报影响越小。表示智能体在状态,策略参数向量为下选择动作时,从外界中得到的立即奖励。图1.1为标准强化学习框架的概率图模型,该模型能清晰地描述状态、动作、策略分布、转移概率分布和下一个状态两两之间的关系。
图STYLEREF1\s2.SEQ图\*ARABIC\s11标准强化学习概率图模型
根据图1.1的马尔可夫决策过程的概率图模型,可以求出在当前策略下的轨迹分布,表示当前策略下的轨迹。
(2-1)
因此,标准强化学习可以变为以下优化问题:
(2-2)
其中,表示在策略下状态动作对的概率分布。该优化问题的目标是找到一组最优参数向量使得在当前策略下的预期累积回报最大,若以深度神经网络来表示策略分布,该参数向量为深度神经网络的一组权重和偏差参数。
1.3最大熵强化学习理论框架
1.3.1最大熵强化学习概率图模型
人们的行为总是随机的,不同的人做某个相同任务可能有不同的解决方法,即使相同的人做同一个任务多次时也能表现出不同的行为,这体现出人类的“智能”。当我们在做某个任务时,不同人表现出不同的行为,有些人能很快地做完这个任务,而有些人在中间可能走了很多“弯路”才完成这个任务,这种“弯路”被传统强化学习算法认定为“错误”。但往往现实生活中这种“错误”是必须的,人们通常只关注是否完成任务,而很少关注是否以最优最快的方式完成某个任务,这些“错误”最终都能完成目标,证明它们都是“好”的,而非最优的。最优行为通常只有一种,而这种“好”行为可能有几十或几百种,能大大增加任务的完成率。人类智能体很多时候也只能表现出这种“好”行为,而不都是最优行为,这种情况随着任务越复杂出现的频率越高,因为任务越复杂,越难发现完成任务的最优行为。而最大熵强化学习的目标就是找出这种“更智能”的控制策略,该策略是随机策略,具有表示所有“好”行为的能力,但它表示出最优行为的可能性最大。
为此,最大熵强化学习框架引入了一个最优性变量的概念,该变量是一个二值变量,表示当前的行为是否是“好”行为。当时,表示在时刻智能体在尝试完成目标,其行为是最优或次优行为;反之当时,表示在当前时刻智能体没有尝试完成任务,其在做一些无用甚至影响训练过程的行为。最大熵强化学习的概率图模型如图1.2所示。
图STYLEREF1\s2.SEQ图\*ARABIC\s12最大熵强化学习的概率图模型
与标准强化学习一样,首先求出最大熵强化学习框架下的轨迹分布,该分布表示所有“好”轨迹的概率分布,此时我们不关心标准强化学习框架下的轨迹分布。为了更好地求出,本文引入了一个假设:
(2-3)
该假设表示当前状态和当前动作是“好”的概率,它与立即奖励的指数形式成正比。这个假设是合理的,因为立即奖励一般都为负,如果有时候奖励为正,则指数的括号里会多减去一项最大的奖励,这也能使得指数括号里总为负。根据式2-3,我们将进行以下变形:
(2-4)
表
您可能关注的文档
- 2025《万科房地产企业经营与财务状况及融资风险识别分析案例》5700字.docx
- 2025《微电网混合储能系统容量配置方法分析案例》5300字.docx
- 2025《位姿估计网络概述》2100字.docx
- 2025《文旅地产的发展模式研究国内外文献综述》8300字.docx
- 2025《文旅地产发展研究的国内外文献综述》8300字.docx
- 2025《我国水利投资结构变化合理度分析计算案例》8400字.doc
- 2025《沃尔玛超市布局现状调研分析报告》2900字.doc
- 2025《无铁心永磁直线同步电机的结构对比概述》2800字.docx
- 2025《无铁心长定子永磁直线同步电机简介概述》1100字.docx
- 2025《无铁心长定子永磁直线同步电机简介概述》1300字.docx
最近下载
- 2025福建高中春季高考学业水平考试物理测试题.docx VIP
- 2025年无菌医疗包装行业研究报告及未来发展趋势预测.docx
- DB23_T 3792-2024《室内冰雪景观建筑技术标准》.pdf VIP
- (高清版)DB32∕T 4783-2024 玻璃纤维增强复合材料筋基坑工程应用技术规程.pdf VIP
- 2025年绵阳市中考数学试题卷(含答案解析).docx
- 合成生物学-全套PPT课件.pptx VIP
- 【JTG 3410-2025公路沥青及混合料试验规程》新旧变化解读.docx
- 江苏省野猪种群监测技术规程.pdf
- 幼儿如何培养良好的行为习惯.pptx VIP
- 第8课《在实践中提高认识能力》第1框《透过现象认识本质》同步课堂精品课件-【中职专用】《哲学与人生》.pptx VIP
原创力文档


文档评论(0)