一种内在动机驱动的FRBF网络自主学习算法.pdfVIP

  • 15
  • 0
  • 约1.37万字
  • 约 8页
  • 2015-10-03 发布于湖北
  • 举报

一种内在动机驱动的FRBF网络自主学习算法.pdf

一种内在动机驱动的FRBF网络自主学习算法.pdf

W01.37 第37卷第3期 河北联合大学学报(自然科学版) No.3 2015年7月 ofHebeiUnited Science Journal Edition) Jul.2015 University(Natural 文章编号:2095—2716(2015)03—0088—07 一种内在动机驱动的FRBF网络自主学习算法 任红格,徐少彬,李福进 (华北理工大学电气工程学院,河北唐山,063009) 关键词:内在动机;FRBF网络;强化学习;Actor~Critic算法;自主学习 摘 习算法。该算法在内在动机的驱动下,利用FRBF网络本身所具有的根据任务复杂度和学习 进度对整体网络进行优化的特点,有效解决了通常情况下对值函数进行离散处理所造成的维 数灾难问题,改善了系统的泛化能力和算法收敛速度。并在两轮机器人上做了仿真实验,结果 表明,该算法能够使机器人通过与环境的交互学习,达到自主控制平衡的目的,体现了该算法 的有效性。 中图分类号:TP393.027文献标识码:A 0引言 内在动机驱动下的强化学习是基于动物的内在动机心理学的原理,采用“试错法”机制,在与环境的交互 中进行学习的一种学习机制口]。一般将其看做一个MDP(马尔科夫决策过程),采用查表的方式存储和迭代 计算状态动作空间的值函数。但是当面对大规模,高复杂度的系统时,不可避免会出现“维数灾问题”。因此 如何利用有限的经验和记忆对大范围空间知识的搜索和利用,成为逼近连续动作空间和连续状态空间的 MDP的最优函数和最优策略亟待解决的问题[2],进而成为了内在动机驱动下的强化学习必须具有的能力。 简而言之,连续状态动作空间的表示问题成为内在动机驱动下内在动机驱动下强化学习的核心问题。 由Barto提出BOX方法,通过将连续空间进行人为划分成为不重叠的子空间,并将不同学习任务在不 同子空间内并行进行,一定程度上解决了此类问题,提高了算法的收敛速度[3’6]。但是该方法需要大量的先 验知识,而且在复杂大系统的空间划分中极易因空间划分不良导致算法无法收敛问题。为克服此类问题,后 来的研究者将模糊的概念引入了连续空间的划分n]。其中心思想是首先对连续输入通过模糊化进行模糊处 理,按照其隶属度函数对不同的子空间进行不同程度的激活,使得算法的泛化能力得到了一定程度提高,但 是在如何实现全维空间的有效子空间划分上仍然没有提出具有建设性的意见。聚类方法[5]通过对状态空间 的变精度划分有效解决了此类问题,但在聚类中心点的数目确定方面仍然需要先验知识的补充。 文中提出了一种可以有效解决连续状态一连续动作问题的方法,该方法在内在动机驱动下强化学习这 一学习框架基础上,采取不同于常规内在动机驱动下的强化学习将环境的立即回报作为奖励机制的方法,把 内部动机与外部环境回报叠加作为智能体的新的奖励机制,其中以前者为核心奖励机制,通过采用自适应 FRBF的神经网络,有效存储学习经验,驱动智能体的学习进程的内在动机算法改进。 1 Actor—Critic学习算法 在内在动机驱动下的强化学习过程中,Agent通过不断与环境交互来获取知识,同时利用内部动机机制 作为自我驱动的一种奖励机制,综合二者的关系改善行为。这一思想的本质是来源于生物学的学习行为:若 收稿日期:2015-01—05修回日期:2015—05—10 基金项目:国家自然科学基金资助项目;河北省自然科学基金(E2014209106)资助项目。 万方数据 第3期 任红格,等:一种内在动机驱动的FRBF网络自主学习算法 89 某一行为对生物体带来了一系列好的结果,则生物体采取该行为的倾向得到加强,反之则减弱卧1。正是基于 此生物学理论,Barto和Sutton提出了Actor—Critic学习算法即。。

文档评论(0)

1亿VIP精品文档

相关文档