网站大量收购闲置独家精品文档,联系QQ:2885784924

一种基于深度强化学习的调度优化方法-西北工业大学学报导航页.PDF

一种基于深度强化学习的调度优化方法-西北工业大学学报导航页.PDF

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种基于深度强化学习的调度优化方法-西北工业大学学报导航页

2017年12月 西 北 工 业 大 学 学 报 Dec. 2017 第35卷第6期 Journal of Northwestern Polytechnical University Vol.35 No.6 一种基于深度强化学习的调度优化方法 1 2 2 2 邓志龙 ,张琦玮 ,曹皓 ,谷志阳 (1.西北工业大学 电子信息学院,陕西 西安  710072;2.西北工业大学 自动化学院,陕西 西安  710072) 摘  要:深度强化学习在于将深度学习的感知能力与强化学习的决策能力相结合,可以直接根据输入 进行控制,是一种更接近人类思维方式的人工智能方法。 旨在二者结合基础上,研究了一种基于深度 强化学习的资源调度算法的设计框架。 该框架首先利用从网络节点获取的大量先验数据,训练深度 学习网络;然后利用强化学习来分配网络资源;接着通过大量的自我对弈,实现基于深度强化学习的 价值网络学习。 最后,设计实验方案对算法的性能进行了仿真和对比验证,以验证该算法的有效性。 关  键  词:深度学习;调度算法;蒙特卡洛模拟;强化学习 中图分类号:TP391.4      文献标志码:A      文章编号:1000⁃2758(2017)06⁃1047⁃07     云计算的优势之一,在于弹性计算和资源的高 在恰当的时机融合,汲取各自的优点,克服固有的缺 [1] 陷,取长补短,在时间效率和求解精度上共同达到最 效整合利用 。 通过虚拟化技术,可将原有的物理 主机的资源划分为不同的虚拟机资源,以实现资源 优。 其具体的工作原理如下: [2⁃5] 1) 首先在分布式环境下,对各分支节点采集流 的按需分配和使用 。 但是,在实际的云环境下, 由于传统的资源分配机制不能完全适应云资源动态 量数据作为训练样本; 变化和不确定等特性,容易引发负载不均衡,从而对 2) 根据样本的规模及实时性要求,确定深度学 云环境下的服务性能和资源利用效率产生影响。 为 习网络的隐藏层数量及其节点数量,并初始化网络 了进一步改善云资源的使用性能,需要对云资源进 参数; 行动态优化。 解决资源分配的这类问题,通常用启 3) 用深度学习方法对数据流量进行拟合,并对 发式算法。 然而传统启发式算法自身的局限性,不 拟合结果偏差进行分析; [6] 4) 如果拟合偏差较大,说明现在的训练属于欠 能解决大型、复杂、动态的资源分配问题 。 传统 拟合状态,需要扩大训练次数,并转向第3)步; 的启发式算法由于自身的局限性,不能圆满解决大 [7] 5) 再次采集各个节点数据作为测试样本,并运 型、复杂、动态的资源分配问题 。 本文旨在结合 用现有的神经网络对数据进行预测和方差分析; 云计算资源分配的实际情况,且充分考虑到云计算 6) 如果拟合方差较大,说明现在样本处于过拟 环境下的任务处理时间、网络带宽和网络时延等约 合状态,需要对深度学习网络进行正则化处理,处理 束,设计了一种基于深度学习和强化学习的智能资 完成后转向第2)步; 源调度算法。 可以验证该算法能够有效解决分

文档评论(0)

fengruiling + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档