- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第1页/共17页延续式决策问题 延续式决策问题:智能体的效用值取决于一个决策序列。效用函数不是由单一状态决定,取决于环境历史的一个状态序列。0.8+10.10.1- 1[up, up, right, right, right] 0.85 = 0.32768成功概率: 0.14*0.8+0.85 = 0.32776转移模型 T(s, a, s’): 在状态s完成行动a时到达状态s’的概率完全可观察环境随机行为一阶马尔可夫转移效用函数取决于状态序列第一页,共18页。第2页/共17页延续式决策问题回报:智能体在一个状态s中得到的一个可正可负的有限值,即回报R(s)。马尔可夫决策过程:使用马尔可夫链转移模型和累加回报的延续式决策过程(MDP) MDP不确定环境的延续式决策问题通过指定行动的概率结果的转移模型和指定每个状态回报的回报函数来定义。 初始状态S0,转移模型, 回报函数。策略π:MDP问题的解,即指定在智能体可能到达的任何状态下,智能体应当采取的行动。π(s):策略π为状态s推荐的行动。最优策略π* :产生最高期望效用的策略.第二页,共18页。第3页/共17页延续式决策问题(例)+1最优策略:- 1R(s)-1.63+1+1- 1- 1-0.43R(s)-0.09+1◆◆+1- 1◆- 1◆◆◆-0.02R(s)-0R(s)0平衡风险和回报是MDP问题的关键。第三页,共18页。第4页/共17页延续式决策问题中的最优化效用函数:Uh([s0, s1, …, sn]) 有限期决策:决策在有限时间内进行,决策应根据时间、状态来决定,给定状态的最优行动会随时间变化,即最优决策是非稳态的。无限期决策:决策没有固定的时间期限,同一个状态没有必要在不同时间采用不同决策,其最优决策是稳态的。第四页,共18页。第5页/共17页延续式决策问题中的最优化(稳态)假设智能体在状态序列之间的偏好是稳态的: 若[s0, s1, … ]和[s’0, s’1, …]以同样的状态起始,则两个序列的偏好次序和状态序列[s1, s2, … ]和[s’1, s’2 , …]的偏好次序是一致的。计算状态序列的效用值,稳态性假设下的两种方法: 累加回报:状态序列的效用值是各状态回报的累加和。Uh([s0, s1, …, sn])= R(s0)+R(s1)+ … 折扣回报:状态序列的效用值是各状态回报的加权(折扣因子)累加和。折扣因子用于描述智能体对于当前与未来回报的偏好。第五页,共18页。第6页/共17页延续式决策问题中的最优化无限期决策,效用值的计算的三种方法: 1、折扣回报:状态序列的效用值是各状态回报的加权(折扣因子)累加和。2、适当策略:确保能够达到终止状态的策略,可使用累积回报。3、平均回报:每一个时间步回报的平均数。策略的值是所得到的折扣回报的期望和。 最优策略:第六页,共18页。第7页/共17页价值迭代基本思想:计算每个状态的效用,以选出每个状态中的最优行动。状态的效用值:可能跟随它出现的所有状态序列的期望效用值。选择使后续状态的期望效用最大的行动:π*(s) = argmax a ∑ s’ T(s, a, s’) * U(s’)价值迭代算法:把每个状态的效用与其邻接状态的效用关联起来: (贝尔曼方程)即当智能体选择最优行动,状态的效用值是在该状态得到的立即回报加上在下一个状态的期望折扣效用值。第七页,共18页。第8页/共17页价值迭代+1- 1迭代求解:——贝尔曼更新 价值迭代法总是收敛到贝尔曼方程组的唯一解上。而对应的策略是最优的。第八页,共18页。第9页/共17页策略迭代策略:指定智能体在可能达到的任何状态下智能体应采取的行动。最优策略:就是产生最高期望效用值的策略。策略迭代:交替执行用当前策略计算状态的效用和用当前的效用改进当前的策略。 策略评价:对拟执行的策略πi 进行评价,计算Ui =Uπi ,即该策略被执行后每个状态的效用值。 策略改进:通过Ui,计算新的MEU策略πi +1。每次迭代都将产生更好的策略。直到效用值不变,算法终止。则该效用值也是贝尔曼方程组的解, πi 一定是最优策略 。第九页,共18页。第10页/共17页策略评价+1- 1 n个状态有n个方程和n个未知量,可用线性代数方法求解。也可用价值迭代计算效用值的近似:——修正策略迭代异步策略迭代:每次迭代只更新部分选中的状态。第十页,共18页。第11页/共17页部份可观察的MDP(POMDP) 智能体并不知道自己所处的状态,也不能给出其转移模型,所以无法执行π(s) 为该状态推荐的行动。+1- 1安全策略: 尽量向减少不确定的方向移动。第十一页,共18页。第12页/共17页部份可观察的MDP(POMDP)观察模型O(s, o): 指定在状态s感知到o的概率。信度状态b:
您可能关注的文档
最近下载
- 教案:ABB[a]-J-8ABB机器人高级编程.docx VIP
- 中国慢性冠脉综合征患者诊断及管理指南2024版解读.pptx
- 优秀工程项目管理经验分享.pptx VIP
- JGJT117-2019民用建筑修缮工程查勘与设计标准.docx VIP
- 2021年5月江苏省苏州工业园区初三调研(中考一模)英语试卷及答案.pdf VIP
- 【PDF】2022 年职业教育国家级教学成果奖申报.pdf VIP
- 电机基础知识入门 [(日)井出万盛 著] 2012年_部分10.pdf VIP
- 湘教版七年级地理上册第三章第二节气温和降水课件(共27张PPT)讲解.ppt VIP
- 科研项目中期检查报告书.docx VIP
- 丹江口水库现代化运行管理矩阵构建实践.docx VIP
文档评论(0)