- 0
- 0
- 约1.49万字
- 约 28页
- 2026-01-21 发布于重庆
- 举报
(19)国家知识产权局
(12)发明专利
(10)授权公告号CN115952729B(45)授权公告日2025.07.11
(21)申请号202211552727.1
(22)申请日2022.12.06
(65)同一申请的已公布的文献号申请公布号CN115952729A
(43)申请公布日2023.04.11
(73)专利权人西北工业大学
地址710072陕西省西安市友谊西路127号
(72)发明人扈晓翔刘帅政肖冰张大巧
(74)专利代理机构北京高沃律师事务所11569专利代理师常祖正
(51)Int.CI.
GO6F30/27(2020.01)
GO6N5/048(2023.01)
GO6N20/00(2019.01)
GO6F119/14(2020.01)
(56)对比文件
Shuaizheng等.《AdaptiveDoubleFuzzySystemsBasedQ-LearningforPursuit-
EvasionGame》.《IFACPapersOnLine》.2022,第55卷(第3期),第5.1-5.2节以及第6节、图1.
审查员赵会玲
权利要求书2页说明书9页附图4页
(54)发明名称
对当前追逃双方的相对位置状态进行模糊化处理,确定相对位置状态在强化学习设备中所处的模糊状态得到当前模糊状态变量
对当前追逃双方的相对位置状态进行模糊化处理,确定相对位置状态在强化学习设备中所处的模糊状态得到当前模糊状态变量
根据当前模糊状态变量和已训练完成的关联函数,得到最大Q值函数
基于最大Q值函数,在当前模糊状态变量下按照最优值选择输入
状态变量,得到追逃博弈训练模型在当前状态下的最优输入状态一
变量策略
利用去模糊化算法对最优输入状态变量策略进行去模糊化处理,得到最终的实际控制量
(57)摘要
CN115952729B本发明公开一种基于强化学习的多智能体追逃博弈方法及设备,涉及人工智能技术领域。本发明通过自博弈的方式实现多智能体追逃博弈的策略生成,基于多智能体追逃的博弈数据,利用模糊学习和Q学习对于环境的探索和利用,能够自主生成最优博弈策略。并且,本发明采用模糊的方法对状态动作空间进行了合理划分,根据规则产生的纳什均衡解具有全局最优性和鲁棒性,由当前状态的邻接状态组成的局部
CN115952729B
CN115952729B权利要求书1/2页
2
1.一种基于强化学习的多智能体追逃博弈方法,其特征在于,包括:
对当前追逃双方的相对位置状态进行模糊化处理,确定所述相对位置状态在强化学习设备中所处的模糊状态得到当前模糊状态变量;
根据所述当前模糊状态变量和已训练完成的关联函数,得到最大Q值函数;
基于所述最大Q值函数,在所述当前模糊状态变量下按照最优值选择输入状态变量,得到追逃博弈训练模型在当前状态下的最优输入状态变量策略;
利用去模糊化算法对所述最优输入状态变量策略进行去模糊化处理,得到最终的实际控制量;
所述关联函数的训练过程包括:
选取追逃双方的追逃博弈训练模型状态变量,并将所述追逃博弈训练模型状态变量以模糊集的形式进行存储;其中,通过三角型隶属度函数将每一个状态的取值空间划分为多个三角函数的叠加组合,将连续型变量以模糊集的形式进行存储;追逃博弈训练模型为:
ξ(t)=F(ξ(t)+G(5(t)U,(t)+K((t))U。(t);
式中,t为当前时刻,ξ(t)为当前时刻的状态变量,ξ(1)为当前时刻状态变量ξ(t)的微分,F(*)为运动状态动力学模型,G(*)为追击方的输入状态动力学模型,K(*)为逃逸方的输入状态动力学模型,U,为追击方的输入状态变量,U为逃逸方的输入状态变量;
根据当前时刻的所述追逃博弈训练模型状态变量构建当前时刻的所述追逃博弈训练模型状态变量及其邻接状态变量的局部关联函数;所述局部关联函数即为局部Q值表;
给出模糊规则中关联函数的更新规则;
基于所述更新规则确定时间差分误差;
基于所述时间差分误差更新所述局部关联函数得到下一时刻的Q值函数;
以所述下一时刻的Q值函数作为模糊推理设备的输出,采用梯度下降法更新所述模糊推理设备的参数;
根据所述局部Q值表和ε-greedy策略选择输出变量结果值;
采用加权平均法对输入的状态变量进行解模糊化操作,得到下一时刻的
您可能关注的文档
- CN115858899B 一种基于多标签影响的网络事件标签流行度预测方法 (中国人民解放军国防科技大学).docx
- CN115866574B 一种面向灾区救援的多无人机飞行搜救轨迹优化方法 (贵州大学).docx
- CN115888251B 一种汽车空调过滤器夹炭布及其制备方法 (浙江金海高科股份有限公司).docx
- CN115906557B 一种冲压件坯料轮廓偏移判定成形缺陷的智能检测方法 (吉林大学).docx
- CN115909197B 一种基于注意力机制的多尺度融合机器人抓取检测方法 (浙江大学).docx
- CN115909731B 交通信号灯切换时刻的预测方法、装置、电子设备及介质 (北京百度网讯科技有限公司).docx
- CN115914708B 媒体的音视频同步方法及系统、电子设备 (西安诺瓦星云科技股份有限公司).docx
- CN115917207B 流量计故障判定方法和氢填充装置 (引能仕株式会社).docx
- CN115937098B 一种电力金具压接质量可视化检测方法 (国网上海市电力公司).docx
- CN115937702B 一种基于深度学习的黄土高原侵蚀沟提取方法及系统 (长春吉电能源科技有限公司).docx
- 安徽省华师联盟2025-2026学年高三上学期1月质量检测生物试卷+答案.doc
- 安徽省华师联盟2025-2026学年高三上学期1月质量检测语文试卷+答案.doc
- 四川省绵阳南山中学实验学校2025-2026学年高三上学期1月月考数学含答案.doc
- 2026届辽宁省大连市高三上学期双基考试物理试卷+答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测化学含答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测生物含答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测英语含答案.doc
- 辽宁名校联盟2026年1月高三上期末联考质量检测政治含答案.doc
- 黑龙江省龙江教育联盟2026年1月高三上学期期末考试化学含答案.doc
- 黑龙江省龙江教育联盟2026年1月高三上学期期末考试生物含答案.doc
最近下载
- 中国水产科学研究院2026年度第一批统一公开招聘备考题库及答案详解(夺冠系列).docx VIP
- 直播电商行业流量转化率优化方案研究报告.docx VIP
- 广东省光大联考2026届普通高中毕业班第二次调研考试化学(含答案).pdf VIP
- 公司收购股权转让法律尽职调查报告律师专业版.pdf
- 金阳投资集团招聘考试题.pdf VIP
- 《胰源性糖尿病诊断与治疗中国专家共识(2025版)》解读PPT课件.pptx VIP
- 有机化合物反应与转化图.PDF
- 山东省枣庄市滕州市2024-2025学年七年级上学期1月期末考试数学试卷(含答案).pdf VIP
- AIGC行业报告:AI生成内容深度产业报告.pdf VIP
- 浙江中医药大学2024-2025学年第1学期《宏观经济学》期末考试试卷(B卷)附标准答案.docx
原创力文档

文档评论(0)