一种基于深度强化学习的调度优化方法-西北工业大学学报导航页.PDF

下载文档

454
0
约3.61万字
约 7页
2018-09-09 发布于天津
举报
版权申诉
保障服务

一种基于深度强化学习的调度优化方法-西北工业大学学报导航页.PDF

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

一种基于深度强化学习的调度优化方法-西北工业大学学报导航页

２０１７年１２月西北工业大学学报Ｄｅｃ．２０１７第３５卷第６期ＪｏｕｒｎａｌｏｆＮｏｒｔｈｗｅｓｔｅｒｎＰｏｌｙｔｅｃｈｎｉｃａｌＵｎｉｖｅｒｓｉｔｙＶｏｌ．３５Ｎｏ．６一种基于深度强化学习的调度优化方法１２２２邓志龙，张琦玮，曹皓，谷志阳（１．西北工业大学电子信息学院，陕西西安　７１００７２；２．西北工业大学自动化学院，陕西西安　７１００７２）摘　要：深度强化学习在于将深度学习的感知能力与强化学习的决策能力相结合，可以直接根据输入进行控制，是一种更接近人类思维方式的人工智能方法。旨在二者结合基础上，研究了一种基于深度强化学习的资源调度算法的设计框架。该框架首先利用从网络节点获取的大量先验数据，训练深度学习网络；然后利用强化学习来分配网络资源；接着通过大量的自我对弈，实现基于深度强化学习的价值网络学习。最后，设计实验方案对算法的性能进行了仿真和对比验证，以验证该算法的有效性。关　键　词：深度学习；调度算法；蒙特卡洛模拟；强化学习中图分类号：ＴＰ３９１．４　　　文献标志码：Ａ　　　文章编号：１０００⁃２７５８（２０１７）０６⁃１０４７⁃０７　　云计算的优势之一，在于弹性计算和资源的高在恰当的时机融合，汲取各自的优点，克服固有的缺［１］陷，取长补短，在时间效率和求解精度上共同达到最效整合利用。通过虚拟化技术，可将原有的物理主机的资源划分为不同的虚拟机资源，以实现资源优。其具体的工作原理如下：［２⁃５］１）首先在分布式环境下，对各分支节点采集流的按需分配和使用。但是，在实际的云环境下，由于传统的资源分配机制不能完全适应云资源动态量数据作为训练样本；变化和不确定等特性，容易引发负载不均衡，从而对２）根据样本的规模及实时性要求，确定深度学云环境下的服务性能和资源利用效率产生影响。为习网络的隐藏层数量及其节点数量，并初始化网络了进一步改善云资源的使用性能，需要对云资源进参数；行动态优化。解决资源分配的这类问题，通常用启３）用深度学习方法对数据流量进行拟合，并对发式算法。然而传统启发式算法自身的局限性，不拟合结果偏差进行分析；［６］４）如果拟合偏差较大，说明现在的训练属于欠能解决大型、复杂、动态的资源分配问题。传统拟合状态，需要扩大训练次数，并转向第３）步；的启发式算法由于自身的局限性，不能圆满解决大［７］５）再次采集各个节点数据作为测试样本，并运型、复杂、动态的资源分配问题。本文旨在结合用现有的神经网络对数据进行预测和方差分析；云计算资源分配的实际情况，且充分考虑到云计算６）如果拟合方差较大，说明现在样本处于过拟环境下的任务处理时间、网络带宽和网络时延等约合状态，需要对深度学习网络进行正则化处理，处理束，设计了一种基于深度学习和强化学习的智能资完成后转向第２）步；源调度算法。可以验证该算法能够有效解决分