- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第28卷第 11期 控 制 理 论 与 应 用 、b1.28No.11
2011年 11月 ControlTheory Applications NOV.201l
文章编号:1000—8152(2011)11—1595—06
基于概率模型的动态分层强化学习
戴朝晖,袁姣红,吴 敏,陈 鑫
(中南大学信息科学与工程学院,湖南 长沙410083)
摘要:为解决大规模强化学习中的 “维度灾难”问题,克服以往学习算法的性能高度依赖于先验知识的局限性,
本文提出一种基于概率模型的动态分层强化学习方法.首先基于贝叶斯学习对状态转移概率进行建模,建立基于
概率参数的关键状态识别方法,进而通过聚类动态生成若干状态子空间和学习分层结构下的最优策略.仿真结果表
明该算法能显著提高复杂环境下智能体的学习效率,适用于未知环境中的大规模学习.
关键词:动态分层强化学习;贝叶斯学习;状态转移概率模型;智能体
中图分类号:TP273 文献标识码:A
Dynamichierarchicalreinforcementlearningbasedon
probabilitymodel
DAIZhao—hui.YUANJiao—hong.W UM in.CHEN Xin
(SchoolofInformationScienceandEngineering,CentralSouthUniversity,ChnagshaHunan410083,China)
Abstract:Todealwithhteoverwhelmingdimensionalityinhtelarge--scalereinforcement-·learningandhtestrongdepen-·
denceonpriorknowledgeinexistinglearningalgorithms,weproposethemethodofdynamichierrachicalreinforcement
learningbasedonhteprobabilitymodel(DHRL—mode1).Thismehtodidentifiessomekeystatesautomaticallybasedon
probabilitypraametersofhtestate—transitionprobabilitymodelestablishedbasedonBayesina learning,htengeneratessome
state—subspacesdynamicallybyclustering,andlearnshteoptimalpolicybasedonhierarchicalstructure.Simulationresults
show htatDHRL—modelalgorihtm improveshtelearningefficiencyofhteagentremrakablyinhtecomplexenvironment,
nadCna beappliedtolearninginhteunknownlarge-scaleworld.
Keywords:dynamichierrachicalreinforcement-·learning;Bayesina learning;state--rtansitionprobabilitymodel;agent
1 引言(Introduction) 尔可夫问题.由于在未知环境下学习时,任务层次
强化学习因具有 自学习和在线学习的良好特 结构难 以事先确定,因此需要寻求一种新的对先
性,使其成为机器学习领域的一个重要分支[1].它 验知识依赖程度很小的动态分层强化学习(dynamic
包括模型无关法和基于模型法2【].采用模型无
您可能关注的文档
- 基于DSP的大功率数字开关电源设计.pdf
- 基于DSP和FPGA的多频声纳采集系统设计.pdf
- 基于ERP的(s,S)策略下库存优化控制决策支持系统.pdf
- 基于ESDA的兰州-西宁城镇密集区经济空间差异分析.pdf
- 基于FLAC^3D稳定性分析的残矿回采方案研究.pdf
- 基于FPGA的循环冗余校验实验系统的实现.pdf
- 基于Fuzzy-ANP的国际陆港竞争力评价.pdf
- 基于Gauss混合模型的清浊音恢复改进算法.pdf
- 基于GIS的喀斯特流域土壤侵蚀模数估算——以贵阳麦西河流域为例.pdf
- 基于GIS的区域水环境压力分区研究.pdf
- DB2203_T 12-2024 梨树模式黑土地保护 玉米机械化种植技术规程.docx
- DB22_T 3575-2023 研学旅行指导师服务规范.docx
- DB22∕T 2744-2017 磐龙玉(标准规范).docx
- DB2203_T 11-2024 青仁黑豆栽培技术规程.docx
- DB22_T 3562-2023 中风后肢体痉挛中药塌渍操作技术规范.docx
- DB22_T 3555-2023 眩晕综合征针刺治疗规范.docx
- DB22_T 2426-2016 人参中多菌灵残留量的测定 高效液相色谱法.docx
- DB22_T 3626-2023 水质 糠醛的测定 苯胺分光光度法.docx
- DB22_T 3613-2023 柞蚕蛹等级规格.docx
- DB2204_T 10-2023 梅花鹿屠宰场防疫卫生规范.docx
最近下载
- 2022基于单片机的大棚温度控制设计文献综述4000字.doc VIP
- 2025年湖南铁道职业技术学院单招职业倾向性考试题库带答案.docx VIP
- J2847_1_201105 国外国际标准.pdf VIP
- 2025年湖南铁道职业技术学院单招职业倾向性考试题库及答案1套.docx VIP
- 2025年沪教牛津版小学一至六年级英语单词汇总(最新)(推荐文档) .pdf VIP
- 广东省职业技能等级认定试卷 模具工(四级)考场、考生准备通知单04.pdf VIP
- 压力容器作业文件.doc VIP
- QC-T620-2023 A型蜗杆传动式软管环箍.pdf VIP
- 物流中心规划.ppt VIP
- 社保基金监督培训课件.ppt
文档评论(0)