一种基于π—MaxQ学习多机器人协作方法.doc

下载文档 降价啦

3
0
约8.29千字
约 15页
2017-11-12 发布于福建
举报
版权申诉
保障服务

一种基于π—MaxQ学习多机器人协作方法.doc

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

一种基于π—MaxQ学习多机器人协作方法

一种基于π—MaxQ学习多机器人协作方法　　摘要：针对多机器人协作中存在的并发性较少、协商通信的实时性与高效性较差以及问题学习空间维数灾难等问题，提出一种基于π-MaxQ学习的多机器人主体协作方法。定义了机器人的公共知识、信念、目标、意图、承诺、信任、知识更新等心智状态，扩充了基于心智状态的KQML（Knowledge Query and Manipulation Language）通信原语，并基于MaxQ方法构建了联合奖励函数。实验证明了方法的有效性。关键词：多机器人；协作；分层学习；心智中图分类号： TP24 文献标识码：A 文章编号：2095-2163（2013）03-0014-04 A Cooperative Method for Multi Robots based on π-MaxQ KE Wende1，2 ，HONG Bingrong1 ， CUI Gang1，CAI Zesu1 （1 School of Computer Science and Technology， Harbin Institute of Technology， Harbin 150001 China； 2 Department of Computer Science， Guangdong University of Petrochemical Technology， Maoming Guangdong 525000， China） Abstract： Aimed to the problem in which there exist the little concurrency， low real time and efficiency， and the curse of dimensionality in multi robots’ cooperation， a cooperative method for multi robots based on π-MaxQ is proposed in the paper. Firstly， the mental states such as common knowledge， belief， goal， intention， promise， trust， knowledge update， etc.， are defined. Secondly， the KQML communication primitives based on the mental states are expanded. Thirdly， the confederative rewarding function based on MaxQ is constructed. The experiments proves the validity of the proposed method. Key words： Multi Robots； Cooperation； Hierarchical Learning； Mental 0 引言现如今，多机器人主体任务协作问题是机器人学与人工智能的研究热点，其研究主要体现在两方面。一是研究多主体行为的方法和协作技术，例如博弈论、经典力学理论等，但该方法仅满足特定协作环境，当主体数量、结构、通信关系发生变化时，协作机制容易失效；二是侧重于对问题的规划以及求解过程，研究静态或动态环境下的主体心智变化，即信念、愿望、意图等，以环境促使心智变化，主动实现协作目标，由于该方法较为实用灵活，受到了研究者们的广泛关注[1]。传统的基于心智模型的协作任务容易导致空间冲突、时间冲突与资源冲突，为实现协作任务最优，研究者们多采用强化学习进行解决，例如，文献[2]面向智能主体基本心智行为，采用强化学习的多步收益最大预测特性，求解整体效果最优；文献[3]建立足球机器人双层协作模型，并采用模糊强化学习思想判断机器人当前心智状态以提高学习效果；文献[4]分析了多机器人动态环境特性，采用强化学习实现协作追捕，等等。以上研究取得了相关成果，但仍存在一些问题：（1）多采用非逻辑因子描述多机器人协作，较少体现出协作并发性；（2）未能考虑多机器人协商通信的实时性与高效性；（3）当问题空间增大时，学习过程出现维数灾难，计算复杂度增大，收敛性降低。为解决这些问题，提高多主体协作效果，并基于文献[5]已做研究的基础上，本文在分层强化学习中引入π演算的多任务并发特性，定义机器人公共知识、信念、目标、意图、承诺、信任等心智模型，扩充KQML通信原语以描述机器人主体通信进程，使多机器人主体协作过程具备了数理分析与心