强化学习笔记:马尔科夫链介绍及基于Python的蒙特卡洛仿真.pdfVIP

强化学习笔记:马尔科夫链介绍及基于Python的蒙特卡洛仿真.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
强化学习笔记 :马尔科夫链介绍及基于Python的蒙特卡洛仿真 ⽬录 0. 前前⾔⾔ 0.1 马马尔尔可可夫夫性性 ⽽⾔之,所谓马尔可夫性(Markov Property)是指系统的下⼀个状态 仅与当前状态 有关,⽽与以前的状态⽆关。 马尔可夫性的⼀个更通俗的说法是⽆记忆性(memorylessness),即系统不记得当前状态以前的状态,仅仅基于当前状态来决定下⼀ 个时刻转移到什么状态。 0.2 马马尔尔科科夫夫链链 马尔可夫链 (Markov Chain, MC)是具有马尔可夫性 (Markov property)的随机过程 (stochastic process),⼜称马尔可夫(随 机)过程。 如果指标集(index set)是连续的,则称为连续时间马尔可夫链 (Continuous-Time MC, CTMC) ;如果指标集是离散的,则称为离 散时间马尔可夫链 (Discrete-Time MC, DTMC)。注意,这⾥ ‘时间’应该以⼴义的⽅式理解。时间是指标(index)的⼀种,但是的确是 最常⽤的⼀种。因此,⼈们通常以时间作为⼴义的index的代名词。 通常情况下,我们碰到的都是DTMC,并且常常就 称为马尔科夫链。所以,当没有特别指明的情况,说起马尔科夫链的话通常就是 指DTMC。 马尔可夫链可通过转移矩阵和转移图定义,除马尔可夫性外,马尔可夫链可能具有不可约性、常返性、周期性和遍历性。⼀个不可约 和正常返的马尔可夫链是严格平稳的马尔可夫链,拥有唯⼀的平稳分布。遍历马尔可夫链 (ergodic MC)的极限分布收敛于其平稳分布。 0.3 马马尔尔科科夫夫链链有有什什么么⽤⽤?? 马尔可夫链可被应⽤于蒙特卡罗⽅法中,形成马尔可夫链蒙特卡罗 (Markov Chain Monte Carlo, MCMC),也被⽤于经济学、博弈论、 通信理论、⾦融、动⼒系统、化学反应、排队论、市场⾏为和信息检索的数学建模。此外作为结构最 单的马尔可夫模型 (Markov model),⼀些机器学习算法,例如隐马尔可夫模型 (Hidden Markov Model, HMM)、马尔可夫随机场 (Markov Random Field, MRF)和马尔可夫决策过程 (Markov decision process, MDP)以马尔可夫链为理论基础。 Markov Chains have prolific usage in mathematics. They are widely employed in economics, game theory, communication theory, genetics and finance. They arise broadly in statistical specially Bayesian statistics and information-theoretical contexts. When it comes real-world problems, they are used to postulate solutions to study cruise control systems in motor vehicles, queues or lines of customers arriving at an airport, exchange rates of currencies, etc. The algorithm known as PageRank, which was originally proposed for the internet search engine Google, is based on a Markov process. Reddits Subreddit Simulator is a fully-automated subreddit that generates random submissions and comments using markov chains, so cool! 马尔可夫链的命名来 ⾃俄国数学家安德雷 ·马尔可夫 (А ндрей А ндреевич М арков)以纪念其⾸次提出马尔可夫 链和对其收敛性质所做的研究[2]。 1. 离离散散时时间间马马尔尔科科夫夫链链(DTMC) 如前所述,DTMC

文档评论(0)

151****0181 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档