一种基于Q学习的任务调度算法的改进研究.pdfVIP

下载本文档

11
0
约9.23千字
约 5页
2017-03-15 发布于广东
举报
版权申诉

一种基于Q学习的任务调度算法的改进研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于Q学习的任务调度算法的改进研究.pdf

一种基于Q学习的任务调度算法的改进研究宰杜琳石慧刘晓平合肥工业大学计算机与信息学院，安徽合肥230009 摘要：本文针对协同工作中的任务调度问题，提出了一种改进的基于模拟退火的Q学习算法。该算法通过引入模拟退火，并结合贪婪策略，以及在状态空间上的筛选判断，显著地提高了收敛速度，缩短了执行时间。最后与其它文献中相关算法的对比分析，验证了本改进算法的有效性。关键词：任务调度Q学习强化学习模拟退火 1引言随着产品设计的复杂化和多样化，协同工作已成为设计制造领域中的必由之路。协同工作的开展，不仅加强了企业内部和企业间的交流与合作，更能够充分发挥企业自身的群组优势，从而提高产品的开发效率，增强企业在市场中的竞争力。而在产品生产过程中，任务的规划和分解，子任务间的调度与优化作为协同工作的基础，就显得尤为重要。目前，有效的调度方法与优化技术的研究和应用，已经成为先进生产技术实践的基础和关键，所以对它的研究与应用具有重要的理论和实用价值llJ。任务调度问题已经被证明是一个NP完全问题【2j，不可能在多项式时间内找到问题的最优解。近年出现的一些启发式算法为求解此类NP完全问题提供了新的途径。其中遗传算法以解决大空间、非线性、全局寻优等复杂问题时具有传统方法所不具备的优越性，受到了研究人员的普遍关注13’5J。但是遗传算法在求解大规模任务调度问题时存在的计算效率偏低、收敛于局部最优解等弊端，也不容忽视，凶此有必要寻求更加有效的算法来解决此问题。强化学习作为一种无监督的学习方法，它具有其他机器学习方法无可比拟的优点，它考虑的是在没有外界指导的情况下，智能体通过与不确定的外界环境进行交互，从而获得最优网络中，提出了一种基于Q学习的分布式自主资源管理框架，并通过仿真与对比试验，证明其比现存的其他方法大大提高了系统效率。文献[7】提出了一种基于多步信息更新值函数的多步Q学习调度算法，并结合实例阐明其解决任务调度问题的有效性，但其在收敛速度上还有待提高。针对此，本文改进了现有的基于明该算法具有更好的收敛速度和泛化性。 2问题定义任务调度问题可以简单的描述为，由设计任务分解出的N个子任务要在M个处理机上加工，每个子任务要在某个处理机上连续加工一段时间，调度就是将各个子任务恰当的分配给处理机，使给定的目标得 ’基金资助：国家自然科学基金，合肥市科研计划项目(2008．1004)．作者简介：杜琳(1985．)，女，河南南阳人，硕十研究，圭，研究方向为计算机图形学与计算机辅助设计；石慧(1980-)’女，安徽合肥人，硕士，助教，研究方向为CSCw和CAD；刘晓平(19“一)，男，山东济南人，教授，博导，研究方向为建模、仿真和协同计算．到最优解。下面，我们给出任务分配和调度问题的一般性定义： (1)n个子任务的集合T={Tl，T2，…，Tn)，Ti为第i个子任务： (2)m个处理机的集合P={Pl，P2，…，P。}，Pi为第i个处理机： (3)一个m×n的矩阵cmxn，Cij为子任务Ti在处理机Pj上的平均运行时间； (4)一个任务约束关系图，由任务前驱图【lol来表示各个子任务间的时序约束关系，如图l是7个子任务的约束关系图．对于一个任务前驱图TPG，TPG=(T， L)，其中T为子任务集，一个子任务Ti，就是图TPG 中的一个节点；L是任务前驱图中的有向边集，它表示任务之间的直接驱动关系，(Ti，T．)∈L即子任务图l任务前驱图 Ti必须在子任务Ti完成之后才能执行，Ti为Tj的一个前趋，Ti为Ti的一个后驱。示的前驱节点集合，r∈删(Z)。 (6)一个任务匹配矩阵TP。。。={dij dij=O。称TP。。。为一个调度策略记为s，如果满足： ◆ ∑乃≥l，∑吃=1该约束条件的意义是每个处理机至少分配一个任务，并且一个任务同时只 f=l ，=l 能调度给一台处理机。 ◆调度在同一台处理机中的所有任务是按深度值升序排列的。一个任务完成的时间，t0为开始时间。现在的目标就是，寻找一个分配调度策略s，将n个子任务指派到m个处理机上，合理调度各个子任务的执行顺序，使得各个任务在满足任务前驱图TPG