连续时间分层强化学习算法.pdfVIP

下载本文档

27
0
约7.7万字
约 63页
2017-07-07 发布于上海
举报

连续时间分层强化学习算法.pdf

连续时间分层强化学习算法毕业论文

连续时间分层强化学习算法摘要分层强化学习，如Option、MAXQ等，通过引入抽象机制来解决大规模系统的“维数灾问题，并具有加速策略学习的功能。Option算法是运用比较广泛的一种分层强化学习算法，它通过引入宏，把任务按照一定的层次进行分解，并只在调用子任务时才进行决策。传统的Option算法基本上是建立在离散时间半马尔可夫决策过程和折扣准则基础上，不能很好的解决连续时间无穷任务问题。因此，论文根据Option算法的研究现状，考虑实际环境模型中的时间累积回报，以及在大规模系统中平均准则的优越性，重点研究折扣或平均准则的连续时间穷任务问题。论文首先以单Agent系统为研究背景，在连续时间半马尔可夫决策过程数学模型和性能势理论框架下，结合现有Option算法思想，给出一种适用于平均或折扣性能准则的连续时间单Agent统一Option分层强化学习模型和学习优化算法，用于解决连续时间无穷任务问题。另外，通过机器人垃圾收集系统为仿真实例，说明这种分层强化学习优化算法与连续时间模拟退火Q学习相比，具有节约存储空间、优化精度高和优化速度快的优势。其次，论文以多Agent系统为研究背景，在连续时间多Agent半马尔可夫数学模型和性能势理论下，结合上面构造的连续时间统一Option算法思想，给出一种在上层采用Agent之间进行宏行动交互，并适用于平均或折扣性能准则的多Agent连续时间统一Option分层强化学习模型和学习优化算法，用于解决连续时间多Agent无穷任务问题。另外，通过多 Agent垃圾收集系统为仿真实例，说明这种分层强化学习优化算法与上层采用联合状态联合宏行动的多Agent连续时间Option算法相比，具有节约存储空间、优化精度高和优化速度快的优势。分层强化学习(HRL)、Option J_ J●，耵● … ■ ● l 1一 ●f● l L0ntlnUOUSlmeHlerarchlCalRelnIorcement ’7 ‘ gninraeLmhtiroglA Algorithm ABSTRACT andSO Hierarchicalreinforcement as on， learning(HRL)，suchOption，MAXQ abstraction usedtosolvecurseof be byintroducing mechanism，Can dimensionality accelerates is aextensive problems，and policylearning．Optionalgorithm hierarchicalreinforcement into method，which application learning decomposes and asub-task． sub—taskusemacrodoesn’tmaksadecisionuntil by carrying Thetaditional isbased d

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

连续时间分层强化学习算法.pdfVIP