CN116068900B 面向多非完整约束移动机器人的强化学习行为控制方法 (福州大学).docxVIP

CN116068900B 面向多非完整约束移动机器人的强化学习行为控制方法 (福州大学).docx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN116068900B(45)授权公告日2025.07.04

(21)申请号202310255701.9

(22)申请日2023.03.16

(65)同一申请的已公布的文献号申请公布号CN116068900A

(43)申请公布日2023.05.05

(73)专利权人福州大学

地址350108福建省福州市闽侯县福州大

学城乌龙江北大道2号福州大学

(72)发明人黄捷张祯毅

(74)专利代理机构福州元创专利商标代理有限公司35100

专利代理师蔡学俊薛金才

(51)Int.CI.

(56)对比文件

CN110989576A,2020.04.10

US2021171024A1,2021.06.10审查员王雅萍

GO5B13/04(2006.01)

权利要求书10页说明书22页附图8页

(54)发明名称

面向多非完整约束移动机器人的强化学习行为控制方法

个的0E格

个的0E格

分热量头融

CN116068900B□14阅科楼本发明提供了面向多非完整约束移动机器人的强化学习行为控制方法,基于非完整约束矩阵建立多非完整约束移动机器人的运动学模型,基于欧拉拉格朗日方程建立多非完整约束移动机器人的动力学模型,并根据所建立的运动学模型构建基本行为,同时通过零空间投影技术,将所设计的基本行为以不同的优先级顺序组合成为复合行为;应用本技术方案不仅可避免在任务

CN116068900B

□14

阅科楼

CN116068900B权利要求书1/10页

2

1.面向多非完整约束移动机器人的强化学习行为控制方法,其特征在于:包括以下步

骤:

步骤S1,基于非完整约束矩阵建立多非完整约束移动机器人的运动学模型,基于欧拉拉格朗日方程建立多非完整约束移动机器人的动力学模型,并根据所建立的运动学模型构建基本行为,同时通过零空间投影技术,将所设计的基本行为以不同的优先级顺序组合成为复合行为;

步骤S2,将行为优先级切换建模为一个分布式部分可观测的马尔科夫决策过程,在集中式训练分布式执行的强化学习算法框架下,设置复合行为的参考速度指令作为强化学习算法的动作集合,选取非完整约束机器人的位置和优先级,以及其邻居机器人的位置和优先级作为强化学习算法的观测集合,设计奖励函数,从而构建分布式强化学习任务监管器DRLMSs;

步骤S3,以平衡控制性能和控制损耗为目标,引入辨识者-执行者-评论家强化学习算法,在线地辨识未知动力学模型、实施控制策略以及评估控制性能,从而设计强化学习控制器RLCs;

步骤S4,基于自适应控制理论,设计自适应补偿器,以维持最优的控制性能和实时抵消饱和效应;

所述步骤S4具体为:首先,考虑控制输入T,=[z.,z?]受到对称执行机构饱和约束的限制如下:

(53)

其中,T1im,i0是已知的阈值;

其次,将控制输入分为两项如下:

Ti=To,i+T,,(54)

其中,t?=[76.,,7.2]”是标称项,TA=[z7.,.]是补偿项,且满足如下条件:

(55)

(56)最后,设计自适应补偿器为η∈R2,且具有更新率如下7,=-Snn?+T;,

(56)

其中,Sni0是设计的自适应补偿器参数。

2.根据权利要求1所述的面向多非完整约束移动机器人的强化学习行为控制方法,其特征在于:步骤S1具体包括如下步骤:

步骤S11:多非完整约束移动机器人运动学建模

CN116068900B权利要求书2/10页

3

考虑一组N(N2)的非完整约束移动机器人,其中每个机器人由差速轮驱动,i=1,...,N;第i个非完整约束移动机器人的广义速度表示为

(1)

其中,v,=[v7,o”]”∈R2,v,∈R和の∈R分别是线速度和角速度,V,∈R和Vg;∈R分别是左右轮的线速度,L;∈R是左右轮间的距离,R表示实数集合;

然后,第i个非完整约束移动机器人的运动学方程表示为

(2)

其中,x,=[p”,中?]eR3表示广义状态,p?∈R2和中,∈R分别是位置和方向,⊙(x;)∈R32表示非完整约束矩阵;

此外

您可能关注的文档

文档评论(0)

aabbcc + 关注
实名认证
文档贡献者

若下载文档格式有问题,请咨询qq1643702686索取原版

1亿VIP精品文档

相关文档