- 15
- 0
- 约1.37万字
- 约 8页
- 2015-10-03 发布于湖北
- 举报
一种内在动机驱动的FRBF网络自主学习算法.pdf
W01.37
第37卷第3期 河北联合大学学报(自然科学版) No.3
2015年7月 ofHebeiUnited Science
Journal Edition) Jul.2015
University(Natural
文章编号:2095—2716(2015)03—0088—07
一种内在动机驱动的FRBF网络自主学习算法
任红格,徐少彬,李福进
(华北理工大学电气工程学院,河北唐山,063009)
关键词:内在动机;FRBF网络;强化学习;Actor~Critic算法;自主学习
摘
习算法。该算法在内在动机的驱动下,利用FRBF网络本身所具有的根据任务复杂度和学习
进度对整体网络进行优化的特点,有效解决了通常情况下对值函数进行离散处理所造成的维
数灾难问题,改善了系统的泛化能力和算法收敛速度。并在两轮机器人上做了仿真实验,结果
表明,该算法能够使机器人通过与环境的交互学习,达到自主控制平衡的目的,体现了该算法
的有效性。
中图分类号:TP393.027文献标识码:A
0引言
内在动机驱动下的强化学习是基于动物的内在动机心理学的原理,采用“试错法”机制,在与环境的交互
中进行学习的一种学习机制口]。一般将其看做一个MDP(马尔科夫决策过程),采用查表的方式存储和迭代
计算状态动作空间的值函数。但是当面对大规模,高复杂度的系统时,不可避免会出现“维数灾问题”。因此
如何利用有限的经验和记忆对大范围空间知识的搜索和利用,成为逼近连续动作空间和连续状态空间的
MDP的最优函数和最优策略亟待解决的问题[2],进而成为了内在动机驱动下的强化学习必须具有的能力。
简而言之,连续状态动作空间的表示问题成为内在动机驱动下内在动机驱动下强化学习的核心问题。
由Barto提出BOX方法,通过将连续空间进行人为划分成为不重叠的子空间,并将不同学习任务在不
同子空间内并行进行,一定程度上解决了此类问题,提高了算法的收敛速度[3’6]。但是该方法需要大量的先
验知识,而且在复杂大系统的空间划分中极易因空间划分不良导致算法无法收敛问题。为克服此类问题,后
来的研究者将模糊的概念引入了连续空间的划分n]。其中心思想是首先对连续输入通过模糊化进行模糊处
理,按照其隶属度函数对不同的子空间进行不同程度的激活,使得算法的泛化能力得到了一定程度提高,但
是在如何实现全维空间的有效子空间划分上仍然没有提出具有建设性的意见。聚类方法[5]通过对状态空间
的变精度划分有效解决了此类问题,但在聚类中心点的数目确定方面仍然需要先验知识的补充。
文中提出了一种可以有效解决连续状态一连续动作问题的方法,该方法在内在动机驱动下强化学习这
一学习框架基础上,采取不同于常规内在动机驱动下的强化学习将环境的立即回报作为奖励机制的方法,把
内部动机与外部环境回报叠加作为智能体的新的奖励机制,其中以前者为核心奖励机制,通过采用自适应
FRBF的神经网络,有效存储学习经验,驱动智能体的学习进程的内在动机算法改进。
1 Actor—Critic学习算法
在内在动机驱动下的强化学习过程中,Agent通过不断与环境交互来获取知识,同时利用内部动机机制
作为自我驱动的一种奖励机制,综合二者的关系改善行为。这一思想的本质是来源于生物学的学习行为:若
收稿日期:2015-01—05修回日期:2015—05—10
基金项目:国家自然科学基金资助项目;河北省自然科学基金(E2014209106)资助项目。
万方数据
第3期 任红格,等:一种内在动机驱动的FRBF网络自主学习算法 89
某一行为对生物体带来了一系列好的结果,则生物体采取该行为的倾向得到加强,反之则减弱卧1。正是基于
此生物学理论,Barto和Sutton提出了Actor—Critic学习算法即。。
您可能关注的文档
最近下载
- 项目可行性研究报告大纲.pptx VIP
- 小学体育五年级下册教案(最全).doc VIP
- 照顾老人保姆合同范本10篇.docx VIP
- 图形推理专项练习题.FIT).pdf VIP
- 《钢轨超声波探伤系统的设计》【毕业设计论文】.doc VIP
- 2022年广东高考生物试卷真题及答案详解(精校版).pdf VIP
- Panasonic 松下 录像机 DMR-EH59 DMR-EH49 Operating Instructions 操作手册说明书 (英语).pdf
- 迪罗—特马法纤维开松混合设备机械原理.pdf VIP
- 高考英语单词3500乱序版.pdf VIP
- 2024年新课标高考福建高考真题生物试卷(原卷版).docx VIP
原创力文档

文档评论(0)