CN115952729B 一种基于强化学习的多智能体追逃博弈方法及设备（西北工业大学）.docxVIP

下载本文档

0
0
约1.49万字
约 28页
2026-01-21 发布于重庆
举报

CN115952729B 一种基于强化学习的多智能体追逃博弈方法及设备（西北工业大学）.docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN115952729B(45)授权公告日2025.07.11

(21)申请号202211552727.1

(22)申请日2022.12.06

(65)同一申请的已公布的文献号申请公布号CN115952729A

(43)申请公布日2023.04.11

(73)专利权人西北工业大学

地址710072陕西省西安市友谊西路127号

(72)发明人扈晓翔刘帅政肖冰张大巧

(74)专利代理机构北京高沃律师事务所11569专利代理师常祖正

(51)Int.CI.

GO6F30/27(2020.01)

GO6N5/048(2023.01)

GO6N20/00(2019.01)

GO6F119/14(2020.01)

(56)对比文件

Shuaizheng等.《AdaptiveDoubleFuzzySystemsBasedQ-LearningforPursuit-

EvasionGame》.《IFACPapersOnLine》.2022,第55卷(第3期),第5.1-5.2节以及第6节、图1.

审查员赵会玲

权利要求书2页说明书9页附图4页

(54)发明名称

对当前追逃双方的相对位置状态进行模糊化处理，确定相对位置状态在强化学习设备中所处的模糊状态得到当前模糊状态变量

根据当前模糊状态变量和已训练完成的关联函数，得到最大Q值函数

基于最大Q值函数，在当前模糊状态变量下按照最优值选择输入

状态变量，得到追逃博弈训练模型在当前状态下的最优输入状态一

变量策略

利用去模糊化算法对最优输入状态变量策略进行去模糊化处理，得到最终的实际控制量

(57)摘要

CN115952729B本发明公开一种基于强化学习的多智能体追逃博弈方法及设备，涉及人工智能技术领域。本发明通过自博弈的方式实现多智能体追逃博弈的策略生成，基于多智能体追逃的博弈数据，利用模糊学习和Q学习对于环境的探索和利用，能够自主生成最优博弈策略。并且，本发明采用模糊的方法对状态动作空间进行了合理划分，根据规则产生的纳什均衡解具有全局最优性和鲁棒性，由当前状态的邻接状态组成的局部

CN115952729B

CN115952729B权利要求书1/2页

1.一种基于强化学习的多智能体追逃博弈方法，其特征在于，包括：

对当前追逃双方的相对位置状态进行模糊化处理，确定所述相对位置状态在强化学习设备中所处的模糊状态得到当前模糊状态变量；

根据所述当前模糊状态变量和已训练完成的关联函数，得到最大Q值函数；

基于所述最大Q值函数，在所述当前模糊状态变量下按照最优值选择输入状态变量，得到追逃博弈训练模型在当前状态下的最优输入状态变量策略；

利用去模糊化算法对所述最优输入状态变量策略进行去模糊化处理，得到最终的实际控制量；

所述关联函数的训练过程包括：

选取追逃双方的追逃博弈训练模型状态变量，并将所述追逃博弈训练模型状态变量以模糊集的形式进行存储；其中，通过三角型隶属度函数将每一个状态的取值空间划分为多个三角函数的叠加组合，将连续型变量以模糊集的形式进行存储；追逃博弈训练模型为：

ξ(t)=F(ξ(t)+G(5(t)U,(t)+K((t))U。(t);

式中，t为当前时刻，ξ(t)为当前时刻的状态变量，ξ(1)为当前时刻状态变量ξ(t)的微分，F(*)为运动状态动力学模型，G(*)为追击方的输入状态动力学模型，K(*)为逃逸方的输入状态动力学模型，U,为追击方的输入状态变量，U为逃逸方的输入状态变量；

根据当前时刻的所述追逃博弈训练模型状态变量构建当前时刻的所述追逃博弈训练模型状态变量及其邻接状态变量的局部关联函数；所述局部关联函数即为局部Q值表；

给出模糊规则中关联函数的更新规则；

基于所述更新规则确定时间差分误差；

基于所述时间差分误差更新所述局部关联函数得到下一时刻的Q值函数；

以所述下一时刻的Q值函数作为模糊推理设备的输出，采用梯度下降法更新所述模糊推理设备的参数；

根据所述局部Q值表和ε-greedy策略选择输出变量结果值；

采用加权平均法对输入的状态变量进行解模糊化操作，得到下一时刻的

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

CN115952729B 一种基于强化学习的多智能体追逃博弈方法及设备（西北工业大学）.docxVIP