- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种基于示例轨迹的抽象动作树构造方法.pdf
计 算 机 与 现 代 化
2016年第 6期 JISUANJIYU XIANDAIHUA 总第 250期
文章编号:1006—2475(2016)06-0085-06
一 种基于示例轨迹的抽象动作树构造方法
王 蕾
(苏州卫生职业技术学院,江苏 苏州I215009)
摘要:自动构造抽象动作一直是分层强化学习研究中的关键技术之一。抽 象动作链接算法是 目前连续任务 中自主发现
抽象动作的典型算法,但是抽象动作链接算法需要进行很多次的迭代计算,收敛速度较慢。本文提出一种基于示例轨迹
的抽象动作树构造算法(ACADT),通过使用一种变点侦测方法,ACADT把每一个轨迹分割成一个抽象动作链。这些从
轨迹中分割得到的抽象动作链随后被合并成一棵抽象动作树。实验表明ACADT可以构造成一棵抽象动作树并能够更
快收敛 。
关键词:分层强化学习;示例轨迹 ;抽象动作 ;自动构造;机 器学习
中图分类号:TP181 文献标识码:A doi:10.3969/j.issn.1006—2475.2016.06.018
AnAbstractActionTreeConstructionAlgorithmBasedonDemonstrationTrajectories
WANG Lei
(SuzhouHealthCollege,Suzhou215009,China)
Abstract:Automaticconstructionofabstractactionisoneofthekeytechnologiesinhierarchicalreinforcementlearning.Skill
chainingisatypicalalgorithm forautomaticallydiscoveryabstractactionsincontinuousreinforcementlearningdomains,butthe
skillchainingalgorithm needstoiteratemanytimesandtheconvergeneespeedisslow.Thispaperpresentsanabs~actactiontree
consturctionalgorithmbasedondemonstrationtrajectories(ACADT).Byusingachangepointdetectionmethod,ACADTseg-
menteachtrajectoryintoachain.Thechainsobtainedfromthemultiplet阳jectoriesaremergedintoanabstractactiontree.Ex—
perimentalresultsshowthatACADTcanconsturctanabstractactiontreeandfasterconvergence.
Keywords:hierarchicalreinforcementlearning;demonstrationtrajectories;abstractaction;automaticconstruction;machine
learning
些高维的需要庞大表示的但是可以拆分成子策略从
0 引 言
而可以简单表示的策略。但是,抽象动作链接的迭代
分层强化学习…通过同时使用低层次的基本动 太费时间:它按序创建抽象动作,然后需要几个情节
作和高层次的抽象动作,从而扩展了一般的强化学 来学习新的抽象动作策略,接下来还要几个情节进行
习 (ReinforcementLearning,RL),得到了很多具有 试错学习。这种过程对很多问题是
您可能关注的文档
最近下载
- 现场安全文明施工及环境保证措施优质资料.doc VIP
- 2014~2024年一级注册结构专业考试真题答案及解析.pdf VIP
- 英剧剧本唐顿庄园台词本中英文对照精排版第一季第一集.pdf VIP
- 匹配指导书hb-ne3-034_过渡工况匹配_v03.pdf VIP
- 匹配指导书hb-ne3-030_闭环控制匹配_v02.pdf VIP
- 医院五年护理人才培养计划实施方案(2025年-2029年).docx
- hb-ne起动控制匹配_v02ne3.pdf VIP
- 热电厂#2机组A级检修(汽机辅机标段)技术文件材料.docx VIP
- 人教版体育与健康七年级上 田径水平四 大单元学历案.docx VIP
- 黄达《金融学》配套习题、答案.pdf VIP
原创力文档


文档评论(0)