基于矢量量化的强化学习和其在机器人行为学习中的应用.pdfVIP

下载本文档

10
0
约2.12万字
约 7页
2017-06-14 发布于北京
举报
版权申诉

基于矢量量化的强化学习和其在机器人行为学习中的应用.pdf

1、本文档共7页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

高技术通讯2011年第21卷第2期：179—184 doi：10．3772／j．issn．1(gr2—0470．2011．02．012 基于矢量量化的强化学习及其在机器人行为学习中的应用① 段勇②。伊婧。张永赫‘ 徐心和” (。沈阳工业大学信息科学与工程学院沈阳110870) (”东北大学信息科学与工程学院沈阳110819) 摘要针对强化学习(RL)中状态空间过大所引起的学习时间过长或算法难于收敛等问题，提出了一种基于矢量量化(VQ)技术的表格型强化学习方法——VQRL方法，该方法用矢量量化器的码书矢量来逼近强化学习的状态空间，从而有效地解决了强化学习的状态空间分割问题，并提高了学习的收敛速度。同时根据等失真理论将一种失真敏感自组织特征映射(SOFM)神经网络用于矢量量化，以达到更好的强化学习状态空间泛化性能。将此方法应用于反应式移动机器人的行为学习的实验验证了此方法的有效性，实验表明，此方法能够较好地解决复杂未知环境的机器人导航问题。关键词强化学习(RL)，矢量量化(VQ)，码书，Q(入)学习，自组织特征映射况[10]。 0引言本研究将矢量量化(vector 术应用于强化学习(RL)状态空间的量化，形成了强化学习(reinforcementlearning，fuL)是指智能 VQRL方法，目的是将连续的输入状态空间转化为体通过与环境交互来掌握从状态空间到动作空间映离散的输入状态，从而降低状态空间的复杂度。该射策略的学习方式。在实际应用中，强化学习系统方法可以使得矢量聚类结果自适应地反映状态矢量的状态空间和动作空间往往是巨大的或连续变化的分布特性，而且可以有效地减少泛化失真。由矢的，这导致学习过程中的搜索空间过大，使得学习主量量化的码书构成表格型的强化学习算法有助于探体很难遍历整个状态空间、动作空间。因此，通常需索策略的实现，同时使强化学习能以较快的速度搜要采取函数逼近和空间量化等方法来减少强化学习索到最优策略。矢量量化在码书足够多、维数足够的空间规模，以实现强化学习算法u圳。目前，多数高时，量化可任意接近失真下界¨1|，因此，本文应用强化学习的理论证明以及算法推导都是基于离散的 feature 失真敏感自组织特征映射(self-organizing 表格型的强化学习方法。因此，如何进行强化学习状态空间分割，并构成表格型强化学习算法是强化样能够在一定条件下保证表格型强化学习算法的收学习的一个重要问题，同时对强化学习的相关研究敛性。将此强化学习方法应用于反应式移动机器人和应用也有重要意义。状态空间分割常用的方法有的行为控制中，可使机器人能够通过自身与环境的交互来学习各种行为能力。 Moore等人提出的Parti．game算法【5|，它使用K．D树来分割状态空间。此后，一些改进的Part．game算法相继被提出㈦7I。Mumo和Kitamura提出了状态空1 强化学习算法间分割方法——QLAss旧]，这种方法将状态空间按 1 照Voronoi图进行分割。文献[9]研究了基于模糊极强化学习中，智能体的状态空间为Js=hsi 小一极大神经网络的强化学习状态空间分割方法。 ∈