基于平均型强化学习算法的动态调度方法的研究-控制理论与控制工程专业论文.docxVIP

下载本文档

1
0
约6.14万字
约 66页
2019-04-12 发布于上海
举报
版权申诉

基于平均型强化学习算法的动态调度方法的研究-控制理论与控制工程专业论文.docx

1、本文档共66页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

摘要论文主要研究了基于平均型强化学习算法的动态调度方法。摘要论文主要研究了基于平均型强化学习算法的动态调度方法。实际的动态调度问题往往呈现出很大的复杂性：动态调度是一类信息不完全的调度，在环境不确定和扰动因素的影响下，需要不断的改变调度策略，是调度策略优化的过程；动态调度通常是对多约束下多目标的综合考虑：动态调度处理的问题常常带有随机性。解决动态调度的方法也有很多，因此论文首先对解决动态调度问题的方法进行了归纳总结，大致分为基于运筹学理论的传统调度方法和基于人工智能的智能调度方法。强化学习作为机器学习的一种，它组合了动态规划、随机逼近和函数逼近的思想，智能体学习从环境到行为的映射，以使奖励信号函数值最大。因为强化学习与以往调度方法相比，无需建立精确的问题模型，也有着坚实的数学基础，很适合解决动态调度问题，因此论文把基于强化学习的调度方法特地归为一类。目前有多种强化学习算法，各算法性能存在着差异，在各算法中也有相应的参数，这些参数对算法有着重要的影响。因此在将强化学习算法应用于具体的实际调度问题前，应首先对学习算法本身做深入的研究。论文针对一个比较典型的强化学习算法实验环境Grid．World，采用面向对象的思想和技术用Visual C++6．0 搭建可视化的仿真软件。在该环境中，强化学习算法单元暴露固定的算法函数接口，对平均型算法R学习、折扣型算法Q学习、Sarsa学习编制动态链接库形式的算法，形成多种强化学习的算法包，针对参数对强化学习算法性能的影响进行仿真实验分析，并比较不同的强化学习算法性能的差异。该软件的搭建与得出的关于强化学习算法的定性结论为后续的研究打下基础。论文的最后针对一个实际的复杂动态调度系统——电梯群组调度，采用基于平均型强化学习R学习算法来进行仿真实验。分析电梯群组调度问题的特点，把它抽象为平均型的马氏决策过程，定义对应于平均型强化学习算法中的状态、行为、报酬等元素，采用随机选择策略防止求解陷入局部最优，应用径向基函数神经网络解决行为值函数的存储和泛化问题，使基于平均型的强化学习算法顺利应用于电梯群组调度。结合电梯群控仿真环境进行调度算法的仿真实验，并把仿真结果和以往的电梯群组调度算法进行比较，展示了算法较好的性能。关键词：动态调度平均型强化学习R学习函数逼近电梯群组调度 ABSTRACTThe ABSTRACT The thesis mainly focuses on the dynamic scheduling method based on the averaged他、】l，a础reinforcement learning algorithms． Dynamic scheduling，a scheduling with incomplete information which has to change scheduling policies自equenny by the influence of unc鲥zinties contained in the environment,call be considered as the optimization course of policies．Dynamic scheduling，characteristic for dealing with stochastic real applications，usually takes multiple objectives into account under many constraints．First of all，the various methods dealing with dynamic scheduling problems ate summarized in the thesis and classified into two types：the traditional methods and the intelligent methods based on operational research and AI respectively．As one kind of machine learning， reinforcement learning takes advantages of dynamic planning，stochastic approximation and function approximation．The agent defined in this method learns the mapping from the environment to actions in order to maximize