连续时间分层强化学习算法.pdfVIP

  • 27
  • 0
  • 约7.7万字
  • 约 63页
  • 2017-07-07 发布于上海
  • 举报
连续时间分层强化学习算法毕业论文

连续时间分层强化学习算法 摘 要 分层强化学习,如Option、MAXQ等,通过引入抽象机制来解决大规模系 统的“维数灾问题,并具有加速策略学习的功能。Option算法是运用比较 广泛的一种分层强化学习算法,它通过引入宏,把任务按照一定的层次进 行分解,并只在调用子任务时才进行决策。 传统的Option算法基本上是建立在离散时间半马尔可夫决策过程和 折扣准则基础上,不能很好的解决连续时间无穷任务问题。因此,论文根 据Option算法的研究现状,考虑实际环境模型中的时间累积回报,以及 在大规模系统中平均准则的优越性,重点研究折扣或平均准则的连续时间 穷任务问题。 论文首先以单Agent系统为研究背景,在连续时间半马尔可夫决策过 程数学模型和性能势理论框架下,结合现有Option算法思想,给出一种 适用于平均或折扣性能准则的连续时间单Agent统一Option分层强化学 习模型和学习优化算法,用于解决连续时间无穷任务问题。另外,通过机 器人垃圾收集系统为仿真实例,说明这种分层强化学习优化算法与连续时 间模拟退火Q学习相比,具有节约存储空间、优化精度高和优化速度快 的优势。 其次,论文以多Agent系统为研究背景,在连续时间多Agent半马尔 可夫数学模型和性能势理论下,结合上面构造的连续时间统一Option算 法思想,给出一种在上层采用Agent之间进行宏行动交互,并适用于平均 或折扣性能准则的多Agent连续时间统一Option分层强化学习模型和学 习优化算法,用于解决连续时间多Agent无穷任务问题。另外,通过多 Agent垃圾收集系统为仿真实例,说明这种分层强化学习优化算法与上层 采用联合状态联合宏行动的多Agent连续时间Option算法相比,具有节 约存储空间、优化精度高和优化速度快的优势。 分层强化学习(HRL)、Option J_ J●,耵● … ■ ● l 1一 ●f● l L0ntlnUOUSlmeHlerarchlCalRelnIorcement ’7 ‘ gninraeLmhtiroglA Algorithm ABSTRACT andSO Hierarchicalreinforcement as on, learning(HRL),suchOption,MAXQ abstraction usedtosolvecurseof be byintroducing mechanism,Can dimensionality accelerates is aextensive problems,and policylearning.Optionalgorithm hierarchicalreinforcement into method,which application learning decomposes and asub-task. sub—taskusemacrodoesn’tmaksadecisionuntil by carrying Thetaditional isbased d

文档评论(0)

1亿VIP精品文档

相关文档