基于强化学习的异构多智能体区域覆盖算法研究-控制科学与工程专业论文.docxVIP

下载本文档

38
0
约6.21万字
约 74页
2019-07-13 发布于上海
举报
版权申诉

基于强化学习的异构多智能体区域覆盖算法研究-控制科学与工程专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

西南交通大学硕士学位论文主要工作(贡献)声明本人在学位论文中所做的主要工作或贡献如下：西南交通大学硕士学位论文主要工作(贡献)声明本人在学位论文中所做的主要工作或贡献如下： (1)根据无人驾驶地面移动车辆(UGV)和无人飞行器(UAV)的运动学模型特性，实现了传感器异构、驱动模式异构的地．空多智能体系统，针对UGV车辆的运动学模型和传感器特性设计了两类抽象的环境扫描模型，在确保观测精度和有效性的同时降低了观测信息的维度。 (2)针对区域覆盖问题，基于POMDP模型搭建了单智能体环境覆盖模型，实现了 QMDP算法和Q—learning算法，并比较了不同的传感器观测精度、观测不确定性对强化学习收敛效果的影响。 (3)针对区域覆盖问题，基于DEC—POMDPs搭建了地．空异构的多智能体区域覆盖模型，在此基础上验证了在线规划算法的有效性。并分析了地．空多智能体系统的通讯动作特点，搭建了通讯仿真模型，优化了多智能体强化学习的决策框架。 (4)设计了一套基于MATLAB软件的多智能体强化学习仿真工具箱。搭建了健全系统的强化学习仿真运算框架，实现了智能体运动学模型设计、地图环境仿真、强化学习算法等模块，设计实现了持久层模块，借助数据库技术改善了MATLAB软件处理超大矩阵数据的能力，为算法验证和实验验证提供仿真支撑。为优化仿真实验效率，实现了几何地图与栅格地图相结合的多义地图框架。通过预定义接口、面对对象编程方法优化了各模块间的交互耦合方式，方便使用、改进或针对该工具箱进行二次开发。本人郑重声明：所呈交的学位论文，是在导师指导下独立进行研究工作所得的成果。除文中已经注明引用的内容外，本论文不包含任何其他个人或集体己经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体，均已在文中作了明确说明。本人完全了解违反上述声明所引起的一切法律责任将由本人承担。学位论文作者签名：王咣东日期： zo，6．银z了万方数据西南交通大学硕士研究生学位论文西南交通大学硕士研究生学位论文第1页摘要面向地．空多智能体系统的区域覆盖问题，建立了基于分布式部分可观测马尔可夫决策模型(DEC．POMDPs)描述观测异构、驱动模式异构的多智能体系统，通过强化学习算法解决多智能体系统的路径规划及避障问题，主要包括以下几个方面的研究内容：首先介绍了由马尔可夫决策模型(MDP)向DEC．POMDPs模型的演变过程。由于智能体模型观测的局部特性和不确定性，各智能体获得的观测不再具备马尔可夫性，导致DEC—POMDPs模型求解最优结果时策略空间维度爆炸——即NEXP完全问题。其次，针对单智能体搭建了基于POMDP模型的区域覆盖仿真场景，利用Q加P算法和Q．1earning算法求解行动策略。通过调整模型参数，分析了观测不确定性和观测精度对POMDP强化学习收敛效果的影响。再次，实现了基于DEC．POMDPs模型的多智能体在线规划算法，并搭建了多个多智能体仿真场景，验证算法的有效性。考虑到通讯动作的低耗时和高时效性，根据通讯动作判断智能体是否获得联合观测，设计一种包含多个强化学习模块的异构多智能体强化学习决策框架，在不影响分布式强化学习收敛速度的前提下，有效降低了通讯频率，提高了多智能体系统在隐性马尔科夫决策过程中的状态辨识度和决策效率。为了方便理论验证和理论分析，开发了基于MATLAB软件的多智能体强化学习工具箱，搭建了完善的强化学习仿真运算框架，实现了智能体运动学模型、地图环境仿真、强化学习算法等模块，设计实现了持久层模块，借助数据库技术改善了MATLAB软件处理超大矩阵数据的能力，为实验验证提供运算能力支撑。通过预定义接口、面对对象编程方法优化了各模块间的耦合方式，便于使用、改进或针对该工具箱进行二次开发。关键词：多智能体系统、异构系统、分布式部分可观测马尔可夫决策、MATLAB工具箱万方数据西南交通大学硕士研究生学位论文西南交通大学硕士研究生学位论文第1I页 Abstract Focused Oil area coverage problem in air-ground multi—agent systems，a decentralized partially observable Markov decision processes(DEC—POMDPs)is established to describe a heterogeneous multi—agent system，and reinforcement learning algorithms are applied to solve decision making problems in multi-agent sys