一种基于Q学习的任务调度算法的改进研究.pdfVIP

一种基于Q学习的任务调度算法的改进研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于Q学习的任务调度算法的改进研究.pdf

一种基于Q学习的任务调度算法的改进研究宰 杜琳石慧 刘晓平 合肥工业大学计算机与信息学院,安徽合肥230009 摘要:本文针对协同工作中的任务调度问题,提出了一种改进的基于模拟退火的Q学习算法。该 算法通过引入模拟退火,并结合贪婪策略,以及在状态空间上的筛选判断,显著地提高了收敛速度, 缩短了执行时间。最后与其它文献中相关算法的对比分析,验证了本改进算法的有效性。 关键词:任务调度Q学习强化学习模拟退火 1引 言 随着产品设计的复杂化和多样化,协同工作已成为设计制造领域中的必由之路。协同工作的开展,不 仅加强了企业内部和企业间的交流与合作,更能够充分发挥企业自身的群组优势,从而提高产品的开发效 率,增强企业在市场中的竞争力。而在产品生产过程中,任务的规划和分解,子任务间的调度与优化作为 协同工作的基础,就显得尤为重要。目前,有效的调度方法与优化技术的研究和应用,已经成为先进生产 技术实践的基础和关键,所以对它的研究与应用具有重要的理论和实用价值llJ。 任务调度问题已经被证明是一个NP完全问题【2j,不可能在多项式时间内找到问题的最优解。近年出 现的一些启发式算法为求解此类NP完全问题提供了新的途径。其中遗传算法以解决大空间、非线性、全 局寻优等复杂问题时具有传统方法所不具备的优越性,受到了研究人员的普遍关注13’5J。但是遗传算法在求 解大规模任务调度问题时存在的计算效率偏低、收敛于局部最优解等弊端,也不容忽视,凶此有必要寻求 更加有效的算法来解决此问题。强化学习作为一种无监督的学习方法,它具有其他机器学习方法无可比拟 的优点,它考虑的是在没有外界指导的情况下,智能体通过与不确定的外界环境进行交互,从而获得最优 网络中,提出了一种基于Q学习的分布式自主资源管理框架,并通过仿真与对比试验,证明其比现存的其 他方法大大提高了系统效率。文献[7】提出了一种基于多步信息更新值函数的多步Q学习调度算法,并结合 实例阐明其解决任务调度问题的有效性,但其在收敛速度上还有待提高。针对此,本文改进了现有的基于 明该算法具有更好的收敛速度和泛化性。 2问题定义 任务调度问题可以简单的描述为,由设计任务分解出的N个子任务要在M个处理机上加工,每个子 任务要在某个处理机上连续加工一段时间,调度就是将各个子任务恰当的分配给处理机,使给定的目标得 ’基金资助:国家自然科学基金,合肥市科研计划项目(2008.1004). 作者简介:杜琳(1985.),女,河南南阳人,硕十研究,圭,研究方向为计算机图形学与计算机辅助设计;石慧(1980-)’女,安徽 合肥人,硕士,助教,研究方向为CSCw和CAD;刘晓平(19“一),男,山东济南人,教授,博导,研究方向为建模、仿真和协 同计算. 到最优解。 下面,我们给出任务分配和调度问题的一般性定义: (1)n个子任务的集合T={Tl,T2,…,Tn),Ti为第i个子任务: (2)m个处理机的集合P={Pl,P2,…,P。},Pi为第i个处理机: (3)一个m×n的矩阵cmxn,Cij为子任务Ti在处理机Pj上的平均运行时间; (4)一个任务约束关系图,由任务前驱图【lol来表 示各个子任务间的时序约束关系,如图l是7个子任 务的约束关系图.对于一个任务前驱图TPG,TPG=(T, L),其中T为子任务集,一个子任务Ti,就是图TPG 中的一个节点;L是任务前驱图中的有向边集,它表 示任务之间的直接驱动关系,(Ti,T.)∈L即子任务 图l任务前驱图 Ti必须在子任务Ti完成之后才能执行,Ti为Tj的一个前趋,Ti为Ti的一个后驱。 示的前驱节点集合,r∈删(Z)。 (6)一个任务匹配矩阵TP。。。={dij dij=O。称TP。。。为一个调度策略记为s,如果满足: ◆ ∑乃≥l,∑吃=1该约束条件的意义是每个处理机至少分配一个任务,并且一个任务同时只 f=l ,=l 能调度给一台处理机。 ◆调度在同一台处理机中的所有任务是按深度值升序排列的。 一个任务完成的时间,t0为开始时间。 现在的目标就是,寻找一个分配调度策略s,将n个子任务指派到m个处理机上,合理调度各个子任务的 执行顺序,使得各个任务在满足任务前驱图TPG

文档评论(0)

开心农场 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档