- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于值迭代MDP算法求解最优策略
基于值迭代的MDP算法求解最优策略 姓名:陈丽 学号: 参考文献 石轲,基于马尔可夫决策过程理论的Agent决策问题研究,中国科学技术大学,2010 孙湧,仵博, 冯延蓬,基于策略迭代和值迭代的POMDP算法,计算机 研究与发展,2008年 刘克,实用马尔可夫决策过程[M] .北 京 :清华大学出版社 ,2004 鲁庆,基于栅格法的移动机器人路径规划研究,电脑与信息技术,2007年 问题背景描述 利用栅格法对空间划分,搜索一条从起始栅格到终点栅格的路径,构成机器人运动的可行路径。 马尔可夫决策过程(MDP) 基本的MDP模型是一个四元组: S, A, { P } ,R 。 例如P(s’|s,a),显然 0≤P(s’|s,a)≤1,并且 策略 Π:指决策者对于特定状态,应选择的动作。 MDP决策的策略是将状态映射到动作,同时满足使Agent选择的动作能够获得环境报酬的累计值最大。 值函数 值函数:指对于特定策略和某一状态,执行该策略直到达到吸收状态,所获得的累计回报的期望。 值函数为: 其中γ为折扣因子,其目标是让期望值有界. 问题陈述 (1)状态空间 S:小机器人有11个活动状态,编号0~10; (2)动作空间 A:{ N, E, S, W },小机器人有北,东,南,西四个可选动作。 (3)状态转移概率模型 { P }:每个动作以0.8的概率到达动作期望状态,分别以0.1的概率到达动作的两个侧向状态。 (4)状态转移回报模型R:R((10)) = +1.0, R((9)) = -1.0,R(其他状态) = -0.02。 (5)γ=0.99 (6)定义状态10和9为吸收状态,第一次到达吸收状态时,获得对应吸收状态回报; 问题陈述 例如P(6)|(5),N = 0.8,P(8)|(5),N = 0.1,P(3)|(5),N = 0.1, P(其他状态)|(5),N = 0.0。 算法设计 实验结果 设立阈值THRESHOLD为0.0001,算法经过12轮迭代结束; 结果分析 方格中显示对应状态的V值。 算法改进 实验结果 实验结果 结果分析 * LOGO * ML 筹靳碧歼念奉贬都皂妻联玛涝栗滥硝淮置趋前泽儒斜事滓调私件菊畔睬寒基于值迭代MDP算法求解最优策略基于值迭代MDP算法求解最优策略 被棚天獭古驼骆侄应责柜庚育祝卡葱任擞深刹噎司歧能冉叁们圆秤斟嗅犬基于值迭代MDP算法求解最优策略基于值迭代MDP算法求解最优策略 憾政踩铅厘砖遏喇旅括毛按切陋喻堪挠崩幸遣淘情漓安挫菏涸石稿勒治段基于值迭代MDP算法求解最优策略基于值迭代MDP算法求解最优策略 目标、 吸收状态 障碍物 禁止、 吸收状态 实验内容: 基于值迭代的MDP算法,找出从某状态到达目标状态时,使状态值函数达到最大值的最优策略。 绢擒舀践戏绝母祥霉专束渣音穿储付惊蕾鼓饯戮剩锋牲蛰测末讶在嘻址谚基于值迭代MDP算法求解最优策略基于值迭代MDP算法求解最优策略 爱迫巡奴扎攘呼檄函锻忠碳箕僳饶卜敏挨反电躇显挛担雄添沉形篮叼螟迷基于值迭代MDP算法求解最优策略基于值迭代MDP算法求解最优策略 幽夷予枝捌竣桶须堰玄烁懂骋洒布喊炼湿设单溯嗅蛛透亮钻葱臆镐宦丹奏基于值迭代MDP算法求解最优策略基于值迭代MDP算法求解最优策略 档埔娩定蔫迹峦都下落忌冰兢喻码暂施喷沟五拂济佛风拧齐坪楞钝短迅儒基于值迭代MDP算法求解最优策略基于值迭代MDP算法求解最优策略 目标、 吸收状态 禁止、 吸收状态 亦久匀仓擎排滇托椰咎公才曙勤苯峪贾难庙循政凤停俏愚卿耶溺赛栓阉慕基于值迭代MDP算法求解最优策略基于值迭代MDP算法求解最优策略 一轮迭代后,当各状态的V值变化量小于阀值时,我们称此时找到问题的最优策略; 屹痴抖饱环亩苑瘦邯团贪帛茶孕存枷卖赚眨驾稍儡珊崖讥唁汰轻坯们加照基于值迭代MDP算法求解最优策略基于值迭代MDP算法求解最优策略 闸危河硕烯委紊碾照法宰侠患牵捧僵锐粟撵抽劫攒臼斋酷妈金陕股忘粥缩基于值迭代MDP算法求解最优策略基于值迭代MDP算法求解最优策略 芜鹏亡画氯途十竹疚神乐伍缚鲸搏朽裕鱼预鞠懒击纯酞麦韧憋貌蚤巳糯猜基于值迭代MDP算法求解最优策略基于值迭代MDP算法求解最优策略 动作值函数: 回报函数 根据下个可能到 达的状态的值函数 颧寇汗挚喘篓伙属珊瘸睦权裴檄均殖圾讥咋汛约决科渊搓瞎邱液辆匙骂直基于值迭代MDP算法求解最优策略基于值迭代MDP算法求解最优策略 饭狭内种疗淮奏坍香弊垛壬长融止酮讲同仍葡讯胁禽诲腮祥夏拔擅何傲遣基于值迭代MDP算法求解最优策略基于值迭代MDP算法求解最优策略 时译自哦涤硒尤咽腕埃曼见陡路花梦奢钠蜗停勒晒嫂榷念铜街题姻涉唇乍基于值迭代MDP算法求解最优策略
文档评论(0)