马尔可夫决策规划.docVIP

  1. 1、本文档共16页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
马尔可夫决策规划

运筹学 概述: 为什么要学《运筹学》? 运筹学(Operational Research)是一类“以定量化为基础、服务于系统管理和决策”的科学方法,其强调的是“最优性”、“若不这样,则不会好于现在这样做”(即非劣性)或“满意性”;其使用的工具是各种模型,尤其是定量数学模型;研究处理的对象是社会经济系统。它是系统工程的理论基础。(Operations Research(美) or Operational Research (英),运筹学(大陆)or作业研究(香港和台湾)) 《The Methods of Operations Research》, P.M.Morse 和 G.E.Kimball(1946):“运筹学是为领导机关对其控制下的事务、活动采取策略而提供定量依据的科学方法,它是在实行管理的领域,运用数学的方法,对需要进行管理的问题进行统筹规划、出决策的一门应用学科”。 也有人将其定义为“运筹学是一种适用于系统运行的方法和工具,它是一种科学方法,能对运行管理人员的问题提供最合适的解答。”(放松了“定量”要求)。另外,还可定义为“将科学技术具体、并最佳运用于生产和生活实践的一门学科”,如Operation Research。 确定 随机 静态 LP、NP、IP 排队 多目标规划 库存 图与网络 对策 决策 随机规划 动态 DP M 本课主要内容: 线性规划、非线性规划、整数规划、多目标规划----最优化理论 对策论----经济博弈论 决策论----决策的理论和方法 第一部分 马尔科夫决策规划(10-1) 第二部分 排队论(8-10) 第三部分 可靠性理论(-) 第四部分 随机规划(4-6) 第五部分 存储论(6-8) 第六部分 蒙特卡洛仿真(2-4) 学习基础: 线性代数、概率论和随机过程、数学规划 主要参考书: 运筹学(修订版),钱颂迪主编,清华大学出版社,1990 排队论及其应用, 陆凤山编著, 湖南科学技术出版社, 1984 排队论与随机服务系统, 华兴(美)编著,上海翻译出版公司,1987.7 随机运筹学, 赵玮、王荫清,高等教育出版社,1993年 运筹学随机模型,严颖、成世学、程侃编著,中国人民大学出版社,1995 实用网络计划技术,程国平、黄沛均,华中理工大学出版社,1991.6 运筹学,李军、徐玖平编著,科学出版社,2003.11 运筹学手册,[美]J.J.摩特、S.E.爱尔玛拉巴主编,上海科学技术出版社,1987 运筹学的理论与实践,[美]菲利普斯等著,刘泉、万敏译,中国商业出版社,1987年 运筹学题库,美国教育协会编,晓园出版社,1993.6 英文参考书: Introduction to Queuing Theory, R.B.Cooper (1998) Operations Research: An Introduction, Hamdy A.Taha (2007) 马尔可夫决策规划 所谓决策,是指在若干个可行的行动方案中按照某种准则选出一个方案。其中,有一类多阶段决策问题称为序贯决策,即在系统的运行过程中,它不是作一次决策就结束,而是在一系列观察的时刻点上都要出决策。如一家商店各种商品每月的进货量;一台机器定期的维修;一家工厂每月的生产计划等在每个观察时刻点上,决策者首先根据所得的系统状态,从其所有被选方案中选择一个方案(即出决策)执行,其结果是:(1)将获得一定效益;(2)能确定以后系统状态发展的概率规律。然后,再观察下一时刻点上系统出现的状态,据此再出新的决策,如此一步一步地进行下去……。如果在序贯决策过程中,系统状态的转移服从已知的概率规律且与系统以前的发展历史无关,即具有无后效性(或Markov性),称此类序贯决策问题的数学模型为Markov决策规划(以下简称MDP)。 Markov决策规划是解决随机性序贯决策问题的重要分支学科。它可以应用于许多领域,是解决随机动态最优化问题的重要工具,如排队系统的最优运行控制;随机库存系统的最优定货策略;设备的最优更换维修策略;水库的优化调度等均可以化为一定的MDP来解决。可以说,凡是以Markov过程作为数学模型的问题,只要能够引入“行动”与“报酬”结构,均可以应用Markov决策规划。 主要讲授内容: 第一讲 概率与随机过程 第二讲 马尔可

文档评论(0)

panguoxiang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档