连续时间统一maxq算法及其应用分析-continuous time unified maxq algorithm and its application analysis.docxVIP
- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
连续时间统一maxq算法及其应用分析-continuous time unified maxq algorithm and its application analysis
连续时间统一 MAXQ 算法及其应用研究摘要具有抽象机制的分层强化学习方法可以实现状态空间的降维,从而解决大规模系 统中的“维数灾”问题。由于引入了状态抽象机制,分层强化学习可以加快策略学习 的速率并且节约学习过程中状态-行动对的存储空间。典型的分层强化学习有 Option 算法、HAM 算法以及 MAXQ 算法。然而传统的分层强化学习算法大都是建立在离散 时间半 Markov 模型或者离散时间多 Agent 半 Markov 模型的框架下的,无法解 决连续时间情况下单 Agent、多 Agent 的学习系统问题,并且算法只能单独适 用于平均准则或者是折扣准则。本文在性能势理论框架下,结合现有的 MAXQ 算法思想和连续时间 SMDP 模型,提出一种同时适用于平均和折扣性能准则的连续时间统一 MAXQ 算法。 由于 Web 服务组合问题可以建模成半 Markov 决策过程模型,因此本文将提出的 算法应用于 Web 服务组合问题中,以验证算法具有实际意义。另外,通过旅游预订 系统作为仿真实例,说明该算法与 Q 学习相比,具有优化精度高、优化速度快 和节约存储空间的优势。但是,由于单 Agent 的能力有限,越来越多的复杂问题需要通过多 Agent 的相互 协作来解决。因此本文结合性能势理论和之前构造的连续时间统一 MAXQ 算法 思想,又提出了一种同时适用于平均和折扣性能准则的多 Agent 连续时间统一 MAXQ 算法,并将该算法应用于解决多 Agent 连续时间 Web 服务组合问题中。 最后通过旅游预订系统作为仿真实例,说明该算法比 single-Agent MAXQ 和selfish multi-Agent MAXQ 算法都具有更好的优化效果,同时也加快了学习速率 且节约了存储空间。关键词:半 Markov 决策过程(SMDP);多 Agent 半 Markov 决策过程(MSMDP); 性能势;MAXQ 算法;Web 服务组合Continuous-Time Unified MAXQ Algorithm and Its ApplicationABSTRACTThe hierarchal reinforcement learning with abstraction mechanism can reduce the dimension of state space, so as to solve the problem of “curse of dimensionality” existing in the large-scale systems. Due to the abstraction mechanism, the hierarchal reinforcement learning can accelerate the policy learning speed and save the memory of state-action pairs. There are three typical hierarchical reinforcement learning algorithms: Option, HAM and MAXQ. However, traditional hierarchical reinforcement learning algorithms are mostly based on the framework of discrete-time SMDP model or discrete-time multi-agent SMDP model, which can not solve the continuous-time single agent, multi-agent learning system problems, and can only apply to the average criteria or discounted criteria.In this dissertation, under the framework of the concept of performance potential, combined with the existed MAXQ algorithm and continuous-time SMDP model, we introduce a continuous-time unified MAXQ algorithm under either average- or discounted-cost criteria. Because the web service composition problem can be modeled as
您可能关注的文档
- 锂云母浸出母液溶剂萃取除杂试验分析-experimental analysis of solvent extraction and impurity removal of lepidolite leaching mother liquor.docx
- 锂硫电池正极tio2s及bentonites复合材料的制备和性能研究-preparation and properties of tio2s and bentonites s composites for lithium-sulfur battery anode.docx
- 锂锰一次电池正极材料mno2的ag改性的分析-analysis of ag modification of mno _ 2 as cathode material of lithium manganese primary battery.docx
- 锂云母高效捕收剂的选择及机理分析-selection and mechanism analysis of efficient lepidolite collector.docx
- 力克敏鼻喷剂对变应性鼻炎豚鼠动物模型治疗作用的分析-analysis of the therapeutic effect of likmin nasal spray on allergic rhinitis guinea pig model.docx
- 力竭运动后大鼠海马nf-nf in hippocampus of rats after exhaustive exercise.docx
- 锂硫电池用改性固态电解质隔膜研究-study on modified solid electrolyte membrane for lithium sulfur battery.docx
- 锂氧气电池钙钛矿型催化剂的制备及其电化学性能的分析-preparation of perovskite catalyst for lithium oxygen battery and analysis of its electrochemical performance.docx
- 力诺太阳能集团诚信营销策略分析-analysis of credit marketing strategy of lino solar energy group.docx
- 力量训练对提高青少年女子排球运动员爆发力的实验分析-experimental analysis of strength training on improving explosive force of young women volleyball players.docx
- 连续模式单级pfc反激式变换器的分析与设计-analysis and design of continuous mode single-stage pfc flyback converter.docx
- 连续梁桥地震响应研究及横向减隔震设计-research on seismic response of continuous girder bridge and design of lateral seismic isolation.docx
- 连续式超临界水中褐煤焦化废水共气化制氢分析-hydrogen production from lignite coking wastewater co-gasification in continuous supercritical water.docx
- 连续数据保护系统中数据分块策略分析-analysis of data blocking strategy in continuous data protection system.docx
- 连续式低压铸造技术的分析与开发-analysis and development of continuous low pressure casting technology.docx
- 连续相位调制信号多符号差分解调算法分析与实现-analysis and implementation of multi-symbol differential demodulation algorithm for continuous phase modulated signals.docx
- 连续退火炉加热段模型化及动态响应分析-modeling and dynamic response analysis of heating section in continuous annealing furnace.docx
- 连续热镀锌钢板镀层组织与镀锌缺陷分析-analysis of coating structure and galvanized defects of continuous hot galvanizing steel plate.docx
- 连续性生产企业的备件库存优化分析-optimization analysis of spare parts inventory in continuous production enterprises.docx
- 连续体震后救援机器人控制系统分析-analysis of control system of continuum post-earthquake rescue robot.docx
最近下载
- 某尾矿溢水塔回水隧洞封堵工程施工方案.pdf VIP
- 婴幼儿的早期教育工作总结PPT.pptx VIP
- 【高考真题】重庆市2025年高考真题物理试卷(含答案).pdf VIP
- 教案对外汉语我是跟旅游团一起来的.pdf VIP
- 2024年秋季新教材人教版一年级上册数学全册教案-129页.docx VIP
- 2024-2025学年初中英语九年级上册牛津上海(试用本)教学设计合集.docx
- 2020年《城镇燃气设计规范》GB50028-2006 .pdf VIP
- T_CDHA 13-2023 热力管道用金属波纹管补偿器.pdf
- 燃气工程技术专业基础知识考试题库(含答案).docx VIP
- 室内滑雪馆消防设计探讨.pdf VIP
文档评论(0)