- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
强化学习笔记 :马尔科夫链介绍及基于Python的蒙特卡洛仿真
⽬录
0. 前前⾔⾔
0.1 马马尔尔可可夫夫性性
⽽⾔之,所谓马尔可夫性(Markov Property)是指系统的下⼀个状态 仅与当前状态 有关,⽽与以前的状态⽆关。
马尔可夫性的⼀个更通俗的说法是⽆记忆性(memorylessness),即系统不记得当前状态以前的状态,仅仅基于当前状态来决定下⼀
个时刻转移到什么状态。
0.2 马马尔尔科科夫夫链链
马尔可夫链 (Markov Chain, MC)是具有马尔可夫性 (Markov property)的随机过程 (stochastic process),⼜称马尔可夫(随
机)过程。
如果指标集(index set)是连续的,则称为连续时间马尔可夫链 (Continuous-Time MC, CTMC) ;如果指标集是离散的,则称为离
散时间马尔可夫链 (Discrete-Time MC, DTMC)。注意,这⾥ ‘时间’应该以⼴义的⽅式理解。时间是指标(index)的⼀种,但是的确是
最常⽤的⼀种。因此,⼈们通常以时间作为⼴义的index的代名词。
通常情况下,我们碰到的都是DTMC,并且常常就 称为马尔科夫链。所以,当没有特别指明的情况,说起马尔科夫链的话通常就是
指DTMC。
马尔可夫链可通过转移矩阵和转移图定义,除马尔可夫性外,马尔可夫链可能具有不可约性、常返性、周期性和遍历性。⼀个不可约
和正常返的马尔可夫链是严格平稳的马尔可夫链,拥有唯⼀的平稳分布。遍历马尔可夫链 (ergodic MC)的极限分布收敛于其平稳分布。
0.3 马马尔尔科科夫夫链链有有什什么么⽤⽤??
马尔可夫链可被应⽤于蒙特卡罗⽅法中,形成马尔可夫链蒙特卡罗 (Markov Chain Monte Carlo, MCMC),也被⽤于经济学、博弈论、
通信理论、⾦融、动⼒系统、化学反应、排队论、市场⾏为和信息检索的数学建模。此外作为结构最 单的马尔可夫模型 (Markov
model),⼀些机器学习算法,例如隐马尔可夫模型 (Hidden Markov Model, HMM)、马尔可夫随机场 (Markov Random Field,
MRF)和马尔可夫决策过程 (Markov decision process, MDP)以马尔可夫链为理论基础。
Markov Chains have prolific usage in mathematics. They are widely employed in economics, game theory, communication
theory, genetics and finance. They arise broadly in statistical specially Bayesian statistics and information-theoretical
contexts. When it comes real-world problems, they are used to postulate solutions to study cruise control systems in motor
vehicles, queues or lines of customers arriving at an airport, exchange rates of currencies, etc. The algorithm known as
PageRank, which was originally proposed for the internet search engine Google, is based on a Markov process. Reddits
Subreddit Simulator is a fully-automated subreddit that generates random submissions and comments using markov
chains, so cool!
马尔可夫链的命名来 ⾃俄国数学家安德雷 ·马尔可夫 (А ндрей А ндреевич М арков)以纪念其⾸次提出马尔可夫
链和对其收敛性质所做的研究[2]。
1. 离离散散时时间间马马尔尔科科夫夫链链(DTMC)
如前所述,DTMC
您可能关注的文档
最近下载
- 《念奴娇赤壁怀古》课件.pptx VIP
- 《线性代数》(陈建龙等)第三章 线性方程组.ppt VIP
- 2025年初中物理课程标准(2022版)考试模拟试卷及答案(共三套).docx
- 城市快速路系统工程冬季施工方案.pdf VIP
- 施耐德_ELAU PacDrive-3-故障代码.pdf VIP
- 2025年重庆市《安全员》C3证考试题库(含答案) .pdf VIP
- 模型试验在土力学与基础工程课程教学中的应用.pdf VIP
- 掘进与支护(第二版)课件:煤巷、半煤岩巷及特殊掘巷法.pptx
- 基于AHP-熵权法的建筑工程经济课程教学策略优化研究.pdf VIP
- 基于BIM技术的独立学院混凝土结构课程教学改革研究.pdf VIP
原创力文档


文档评论(0)