一种内在动机驱动的FRBF网络自主学习算法.pdfVIP

下载本文档

15
0
约1.37万字
约 8页
2015-10-03 发布于湖北
举报

一种内在动机驱动的FRBF网络自主学习算法.pdf

W01．37 第37卷第3期河北联合大学学报(自然科学版) No．3 2015年7月 ofHebeiUnited Science Journal Edition) Jul．2015 University(Natural 文章编号：2095—2716(2015)03—0088—07 一种内在动机驱动的FRBF网络自主学习算法任红格，徐少彬，李福进 (华北理工大学电气工程学院，河北唐山，063009) 关键词：内在动机；FRBF网络；强化学习；Actor～Critic算法；自主学习摘习算法。该算法在内在动机的驱动下，利用FRBF网络本身所具有的根据任务复杂度和学习进度对整体网络进行优化的特点，有效解决了通常情况下对值函数进行离散处理所造成的维数灾难问题，改善了系统的泛化能力和算法收敛速度。并在两轮机器人上做了仿真实验，结果表明，该算法能够使机器人通过与环境的交互学习，达到自主控制平衡的目的，体现了该算法的有效性。中图分类号：TP393．027文献标识码：A 0引言内在动机驱动下的强化学习是基于动物的内在动机心理学的原理，采用“试错法”机制，在与环境的交互中进行学习的一种学习机制口]。一般将其看做一个MDP(马尔科夫决策过程)，采用查表的方式存储和迭代计算状态动作空间的值函数。但是当面对大规模，高复杂度的系统时，不可避免会出现“维数灾问题”。因此如何利用有限的经验和记忆对大范围空间知识的搜索和利用，成为逼近连续动作空间和连续状态空间的 MDP的最优函数和最优策略亟待解决的问题[2]，进而成为了内在动机驱动下的强化学习必须具有的能力。简而言之，连续状态动作空间的表示问题成为内在动机驱动下内在动机驱动下强化学习的核心问题。由Barto提出BOX方法，通过将连续空间进行人为划分成为不重叠的子空间，并将不同学习任务在不同子空间内并行进行，一定程度上解决了此类问题，提高了算法的收敛速度[3’6]。但是该方法需要大量的先验知识，而且在复杂大系统的空间划分中极易因空间划分不良导致算法无法收敛问题。为克服此类问题，后来的研究者将模糊的概念引入了连续空间的划分n]。其中心思想是首先对连续输入通过模糊化进行模糊处理，按照其隶属度函数对不同的子空间进行不同程度的激活，使得算法的泛化能力得到了一定程度提高，但是在如何实现全维空间的有效子空间划分上仍然没有提出具有建设性的意见。聚类方法[5]通过对状态空间的变精度划分有效解决了此类问题，但在聚类中心点的数目确定方面仍然需要先验知识的补充。文中提出了一种可以有效解决连续状态一连续动作问题的方法，该方法在内在动机驱动下强化学习这一学习框架基础上，采取不同于常规内在动机驱动下的强化学习将环境的立即回报作为奖励机制的方法，把内部动机与外部环境回报叠加作为智能体的新的奖励机制，其中以前者为核心奖励机制，通过采用自适应 FRBF的神经网络，有效存储学习经验，驱动智能体的学习进程的内在动机算法改进。 1 Actor—Critic学习算法在内在动机驱动下的强化学习过程中，Agent通过不断与环境交互来获取知识，同时利用内部动机机制作为自我驱动的一种奖励机制，综合二者的关系改善行为。这一思想的本质是来源于生物学的学习行为：若收稿日期：2015-01—05修回日期：2015—05—10 基金项目：国家自然科学基金资助项目；河北省自然科学基金(E2014209106)资助项目。万方数据第3期任红格，等：一种内在动机驱动的FRBF网络自主学习算法 89 某一行为对生物体带来了一系列好的结果，则生物体采取该行为的倾向得到加强，反之则减弱卧1。正是基于此生物学理论，Barto和Sutton提出了Actor—Critic学习算法即。。

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

一种内在动机驱动的FRBF网络自主学习算法.pdfVIP