网站大量收购独家精品文档,联系QQ:2885784924

阶段性目标导向强化学习中状态表征与技能发现方法研究.pdf

阶段性目标导向强化学习中状态表征与技能发现方法研究.pdf

  1. 1、本文档共61页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

摘要

AI

强化学习在游戏、机器人控制系统等决策任务中取得了令人瞩目的结果,但传统强化

学习方法在结构组织复杂、空间规模大、奖励稀疏的任务中需要大量探索,样本利用率低,

最优策略收敛速度慢。研究人员在强化学习中引入抉择、技能发现框架,通过学习可重复利

用的抉择或技能,提高智能体的探索效率和样本利用率。虽然,基于抉择的强化学习方法已

经可以解决结构简单的单目标导向强化学习问题,但由于策略网络的状态表征能力不足,难

以解决多种目标组合变化的阶段性目标导向强化学习问题。此外,由于这类方法模型复杂,

训练不稳定,许多学者投入到模型简单的基于技能的强化学习方法研究中。然而,基于技能

的强化学习方法难以直接在阶段性目标导向强化学习任务中学习技能,在奖励稀疏的任务中

学习技能时,需要额外的人工干预或演示数据,而人工干预需要丰富的知识背景支撑,演示

数据又难以获得。针对这些问题,本文先后在基于抉择的方法中结合循环神经网络、基于技

能的方法中结合对比学习,提出了两种模型,主要研究内容如下:

(1)针对基于抉择的强化学习方法因策略网络的状态表征能力不足,导致难以解决多种

目标组合变化的阶段性目标导向强化学习问题,提出了一种基于循环状态表征的抉择-批判家

方法。在抉择-批判家方法中引入长短期记忆网络,对每一时刻的状态结合前一时刻的隐藏状

态进行编码,使每个状态中融入之前的状态信息,增强策略网络对于任务全局信息的表征能

力,更好地学习抉择策略网络,从而解决阶段性目标导向强化学习问题。最后,在网格世界

任务环境上进行了实验,证实了该模型的良好性能。

(2)针对基于技能的强化学习方法难以直接在阶段性目标导向强化学习任务中学习技能,

导致在稀疏奖励条件下需要引入过多先验知识或人工干预的问题,提出了一种基于分组对比

学习的序贯感知技能发现方法。首先,通过轨迹分组对比学习的方法学习技能嵌入表征,以

减少人工干预。然后,分别在训练、测试阶段对分段轨迹进行序贯技能嵌入表征,并结合策

略网络实现序贯技能策略的训练和高效利用,解决阶段性目标导向强化学习任务。最后,分

别在网格世界、质点控制环境中进行了实验,验证了所提方法的有效性。

3

()针对科研人员在进行强化学习算法研究时,希望能够方便地在前端界面进行交互,

调整模型参数、保存模型、直观地查看算法最终效果的需求,结合本文的研究内容,设计实

现了一个智能体运动控制演示系统。该系统为科研人员提供了一个外观简洁、操作简单的交

互界面,方便进行多种算法的模型训练、演示。

关键词:目标导向强化学习,状态表征,技能发现,长短期记忆网络,分组对比学习

Abstract

Reinforcementlearninghasachievedremarkableresultsindecision-makingtaskssuchasgame

AIandrobotcontrolsystems.However,traditionalreinforcementlearningmethodsrequirealarge

amountofexplorationintaskswithcomplexstructuralorganization,largespatialscales,andsparse

rewards,resultinginlowsampleutilizationandslowconvergencetooptimalstrategies.Researchers

haveintroducedoptionandskilldiscoveryframeworksinreinforcementlearningtoimprovethe

explorationefficiencyandsampleutilizationofagentsbylearningreusableoptionsorskills.

Althoughoption-basedreinforcementlearningcanalreadysolvesinglegoal-orientedreinforcement

learning

文档评论(0)

论文资源 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档