基于内在动机智能机器人自主发育算法.docVIP

下载本文档

2
0
约6.4千字
约 13页
2018-08-29 发布于福建
举报
版权申诉

基于内在动机智能机器人自主发育算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于内在动机智能机器人自主发育算法

基于内在动机智能机器人自主发育算法　　摘要：　　针对两轮自平衡机器人在学习过程中主动性差的问题，受心理学内在动机理论启发，提出一种基于内在动机的智能机器人自主发育算法。该算法在强化学习的理论框架中，引入模拟人类好奇心的内在动机理论作为内部驱动力，与外部奖赏信号一起作用于整个学习过程。采用双层内部回归神经网络存储知识的学习与积累，使机器人逐步学会自主平衡技能。最后针对测量噪声污染对机器人平衡控制中两轮角速度的影响，进一步采用卡尔曼滤波方法进行补偿，以提高算法收敛速度，降低系统误差。仿真实验表明，该算法能够使两轮机器人通过与环境的交互获得认知，成功地学会运动平衡控制技能；机器人具有良好的自主学习能力，体现了该算法的有效性。　　关键词：　　内在动机；自主发育；卡尔曼滤波；平衡控制；两轮机器人　　0 引言　　在20世纪80年代末有学者提出了两轮自平衡机器人的概念，它属于智能发育机器人领域中一个全新的研究方向。于化龙等[1]认为发育机器人与传统机器人相比，前者心智发育是建立在一个类似大脑的自然系统或人工嵌入式系统之上的，这种系统在其内在发育程序的控制下通过使用自己的传感器和执行器与环境进行自主实时的交流来发展心智能力。针对两轮自平衡机器人的平衡控制，人们提出了很多种控制方法：文献[2]结合Q学习和前馈（Back Propagation， BP）神经网络实现了对一级倒立摆的平衡控制；文献[3]通过采用经典线性二次型调节器（Linear Quadratic Regulator， LQR）算法对二级倒立摆进行平衡控制；文献[4]采用了经典强化学习（Reinforcement Learning， RL）与模糊神经网络相结合，实现了两轮机器人的平衡控制；文献[5]通过分层模糊控制来完成平衡控制目的。以上控制算法都是结合神经网络容错力强的特点，但是学习时间较长，自学习能力较差；并且都未考虑测量噪声对两轮角速度的影响，不利于系统的稳定。　　心理学家常常把强化信号区别为内在激励和外在激励。外在激励是从环境中得到的奖赏，而内在激励的产生仅仅是因为智能体自我的喜好而与外界环境因素无关。Oudeyer等[6]认为在智能机器人研究中，内在动机作为一种内部驱动力，同外界环境所发出的外部信号一同作用于机器人整个学习过程。2006年Pfeifer等[7]强调机器人物理本体与未知环境的交互来实现机器人对未知环境的学习和认知。2013年Cederborg等[8]从生物的自我意识下的探索出发，提出了内在动机（Intrinsic Motivation， IM）系统思想，并提出系统状态转移误差学习机，实现基于内在动机模型的机器人对未知环境的主动探索学习。心理学家White[9]曾指出内在激励行为是机体能力提高的重要过程，这种能力的获得一定会对以后可能遇到的各种问题有所帮助，并会为解决新的问题打下基础。　　本文受到心理学内在动机理论启发，针对以上问题提出一种基于内在动机的自主发育算法（Reinforcement Learning based on Intrinsic Motivation， IMRL）。该算法以强化学习为框架，将内在动机信号作为内部奖励，驱动机器人的学习进程，并采用双层内部回归神经网络作为知识的学习与积累空间。最后根据文献[10]所提出的方法采用卡尔曼滤波方法进行补偿，可以有效地降低噪声影响，提高算法的收敛速度，降低系统误差。　　1 基于内在动机的自主发育算法　　1.1 自主发育模型结构　　本文以强化学习为框架，结合内在动机驱动生物体自主学习的提点，设计了一种基于内在动机的自主发育算法，算法的控制结构如图1所示。　　本文设计的学习算法由评价网络和动作网络两部分组成，并且它们都使用了内部回归神经网络。评价网络采用了时间差分（Temporal Difference， TD）预测误差方法对评价函数进行逼近，并且根据内在动机机制计算出内部奖励，与外部输入信号一起作用于评价网络，为动作网络提供一个更加精准的评价函数来决定当前动作的优劣。动作网络利用评价网络的输出来优化动作选择，从而提高机器人最优动作选择概率，体现了智能体的自主学习能力。　　1.2 自主发育算法设计　　基于内在动机的自主发育算法可以表示为一个8元组计算模型，记为：　　IMRL={S，A， f， j，r，p（st，at），H，V（t）} 　　其中各个元素的含义如下。　　1） S：IMRL的内部状态合集。S={sii=1，2，…，n}，S为系统所有可能的状态集合，si表示第i个离散状态，n为所有可能产生状态的个数。　　2） A：IMRL的动作合集，A={aii=1，2，…，m}，ai表示第i个动作行为，m为所有动作行为的个数。　　3）