马尔可夫决策规划.docVIP

下载本文档

41
0
约4.9千字
约 16页
2017-03-28 发布于江苏
举报
版权申诉

马尔可夫决策规划.doc

1、本文档共16页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

马尔可夫决策规划

运筹学概述：为什么要学《运筹学》？运筹学（Operational Research）是一类“以定量化为基础、服务于系统管理和决策”的科学方法，其强调的是“最优性”、“若不这样，则不会好于现在这样做”（即非劣性）或“满意性”；其使用的工具是各种模型，尤其是定量数学模型；研究处理的对象是社会经济系统。它是系统工程的理论基础。(Operations Research(美) or Operational Research (英)，运筹学(大陆)or作业研究(香港和台湾)) 《The Methods of Operations Research》, P.M.Morse 和 G.E.Kimball（1946）：“运筹学是为领导机关对其控制下的事务、活动采取策略而提供定量依据的科学方法，它是在实行管理的领域，运用数学的方法，对需要进行管理的问题进行统筹规划、出决策的一门应用学科”。也有人将其定义为“运筹学是一种适用于系统运行的方法和工具，它是一种科学方法，能对运行管理人员的问题提供最合适的解答。”（放松了“定量”要求）。另外，还可定义为“将科学技术具体、并最佳运用于生产和生活实践的一门学科”，如Operation Research。确定随机静态 LP、NP、IP 排队多目标规划库存图与网络对策决策随机规划动态 DP M 本课主要内容：线性规划、非线性规划、整数规划、多目标规划----最优化理论对策论----经济博弈论决策论----决策的理论和方法第一部分马尔科夫决策规划（10－1）第二部分排队论（8－10）第三部分可靠性理论（－）第四部分随机规划（4－6）第五部分存储论（6－8）第六部分蒙特卡洛仿真（2－4）学习基础：线性代数、概率论和随机过程、数学规划主要参考书：运筹学（修订版），钱颂迪主编，清华大学出版社，1990 排队论及其应用, 陆凤山编著, 湖南科学技术出版社, 1984 排队论与随机服务系统, 华兴（美）编著，上海翻译出版公司，1987.7 随机运筹学, 赵玮、王荫清，高等教育出版社，1993年运筹学随机模型，严颖、成世学、程侃编著，中国人民大学出版社，1995 实用网络计划技术，程国平、黄沛均，华中理工大学出版社，1991.6 运筹学，李军、徐玖平编著，科学出版社，2003.11 运筹学手册，[美]J.J.摩特、S.E.爱尔玛拉巴主编，上海科学技术出版社，1987 运筹学的理论与实践，[美]菲利普斯等著，刘泉、万敏译，中国商业出版社，1987年运筹学题库，美国教育协会编，晓园出版社，1993.6 英文参考书： Introduction to Queuing Theory, R.B.Cooper (1998) Operations Research: An Introduction, Hamdy A.Taha (2007) 马尔可夫决策规划所谓决策，是指在若干个可行的行动方案中按照某种准则选出一个方案。其中，有一类多阶段决策问题称为序贯决策，即在系统的运行过程中，它不是作一次决策就结束，而是在一系列观察的时刻点上都要出决策。如一家商店各种商品每月的进货量；一台机器定期的维修；一家工厂每月的生产计划等在每个观察时刻点上，决策者首先根据所得的系统状态，从其所有被选方案中选择一个方案（即出决策）执行，其结果是：（1）将获得一定效益；（2）能确定以后系统状态发展的概率规律。然后，再观察下一时刻点上系统出现的状态，据此再出新的决策，如此一步一步地进行下去……。如果在序贯决策过程中，系统状态的转移服从已知的概率规律且与系统以前的发展历史无关，即具有无后效性（或Markov性），称此类序贯决策问题的数学模型为Markov决策规划（以下简称MDP）。 Markov决策规划是解决随机性序贯决策问题的重要分支学科。它可以应用于许多领域，是解决随机动态最优化问题的重要工具，如排队系统的最优运行控制；随机库存系统的最优定货策略；设备的最优更换维修策略；水库的优化调度等均可以化为一定的MDP来解决。可以说，凡是以Markov过程作为数学模型的问题，只要能够引入“行动”与“报酬”结构，均可以应用Markov决策规划。主要讲授内容：第一讲概率与随机过程第二讲马尔可