基于强化学习算法的电梯群控系统仿真研究.pdfVIP

下载本文档

5
0
约3.84千字
约 4页
2017-04-29 发布于未知
举报
版权申诉

基于强化学习算法的电梯群控系统仿真研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于强化学习算法的电梯群控系统仿真研究仪器学引言表报专家系统???糯?惴ā?】在层问模式下，将派梯方文献【???岢龅姆椒ㄖ猩窬??缡淙胱刺????砺郾尘?李大字褚建华靳其兵????????????近年来，随着计算机技术和人工智能的发展，人工智能方法在大楼的信息得以快速传递，?电脑控制系统根据召唤信弓、轿厢位置、轿厢负载等自动选择最佳运行控制方式的群控电梯中得到广泛应用。应用电梯群控系统可以提高电梯服务系统的性能，比如缩短响应时?日?⒎?袷奔洌?降低系统运行能耗，目前常见的群控电梯调度算法主要自．分区算法??岢鲇梦８臀龇ㄇ蠼馍细叻宥??智?侍猓?案作为群体·??囊桓鋈旧?澹?扒舐?愣嗄勘暧呕?方案，多智能体控制【??鹊取?过多，只自．一个行为输入；而导致对?档募扑?不准确，控制效果始终不是最优。针对这利·情况，本论文将强化学习算法与人工神经网络结合提出一种改进的电梯群控算法，将外选信号作为神经网络的输入，大大降低维数，从而改善控制效果，加快收敛。对于实时运行的?康缣萁?泻侠淼挠?化，更有效地减少乘客平均候梯时间、减少乘客平均乘梯时间、均衡电梯拥挤度，并?该算法简单，实用性强。通过?构造界囱．显示，使仿真效果接近实际运行，为?蟮难芯康於?思崾档幕?　???问题模型电梯群控系统结构如图??尽Ｒ话憷此担?缣萑?第?卷第?谠隹???年????本┗?ご笱ё远??芯克?本????摘要电梯群控系统的任务是有效地运送乘客，提高电梯运行效率、改善服务质量。采川最合适的调度算法分派电梯是提高电梯群控性能的关键。本文是将强化学习算法与人工神经网络结合提??恢指慕?牡缣萑嚎厮惴ǎ?⑼ü齎?????镅?设计仿真系统。就三种不同的交通流模式进行了比较，测试结果表明基于神经网络的强化学习的电梯群控算法，能够有效地减少乘客的平均等待时间。关键词电梯群控强化学习神经网络??????????????????????．??????????????????????．?????????????瓵??????甋??????’???、，?．??．? 弋螗叫垄字?‘?箪?尊浚?矸?囿腯??聎?ㄖ???ǎ???了芾矬騃．———??帽ば???衉???????一?岛，材，???葱行形猼／，，观察所得到的报酬和卜一时刻的?保??卜?耍???‘??雗拿，?睿??一?岛，珥???谇炕??暗牡缣莸鞫人惴?控系统包括多个电梯，每个电梯对应一个单梯控制器和群控制器。电梯大厅配有大厅外选按钮，大厅??强化学习系统的原理和基本结构所谓强化学习??侵复踊肪匙刺?蕉?饔成?的学习，以使动作从环境中获得的累积奖赏值最大．该方法不同于监督学习技术那样通过正例、反例来告知采取何种行为，而是通过试错法???????捶⑾肿钣判形2呗浴?强化学习的算法种类中，使用最广泛的要算是著名的?????算法。??????莊?提出的一种模型无关的强化学习方法。智能体通过动作值函数选择一个执行动作，被称为?怠Ｆ溲?习过程如下：??跏蓟??蠶?，材????；??谧刺瑂，?罚?鄄斓鼻靶形?希??荽俗刺??行为值函数?????按照一定策略??≡裥形#?／，；状态???业??蛔刺?男形V岛??畲笾????，?，甜???輑式更新?担?????，÷?川，判断状态是否为结束状态，当访问到?标状态时，结束一次迭代循环。否则，返回??开始新的迭代循环。??神经网络函数估计强化学习的行为值函数用神经网络函数估计的本质就是通过外部环境?刺??形?作为神经网络的输入，计算行为值指示信号。一旦外选按钮被按下，群控器记录被呼叫楼层，选择并分配最佳的电梯去响应。函数输出，可以有效避免维数灾难的问题，同时还可以利用神经网络存储?怠Ｊ褂谩暌籫???呗?随机选择动作Ⅳ，并执行。计算即时报酬和下一时刻的最大行为值函数，根据式?．?更新?笨滔碌?行为值函数，最后更新神经网络权值。神经网络函数估计框架如图??尽?神经网络卜——叫依概率选择行为?下面具体说～下神经网络权值的更新：状态?形6?唧，Ⅳ??ü?夯?涑鯫?，，口??强化学习期望输出为‘??????????盜??渲???词北ǔ辏瑈为折扣因子?≤???煌ü??度下降法，将神经网络权值更新如式??所示：???? 从上面的学习过程可知，存在两个收敛过程：一是强化学习的收敛过程；二是神经网络的收敛过程。强化学习模型是基于马尔可夫决策过科的。因此，它的收敛速度会很慢。所以本文加入神经网络，作为一利一方向监督智能体更快更好的收敛剑最优解。由此可以看出神经网络的收敛效率对强化学爿的性能有着很大的影响。早期的?神经网络，输入的状态和行为?硕啵?导致神经网络很难收敛，甚至发散。在调度过程中，需要时刻注意两个关键问题：’‘是：“探索”与“利刖”的平衡；二是：如何计算、存储和泛化行为值函数。在实施平衡方法中，选择行为时可采用随机行为选