CN113867934B 一种无人机协助的多节点任务卸载调度的方法 (杭州电子科技大学).docxVIP

CN113867934B 一种无人机协助的多节点任务卸载调度的方法 (杭州电子科技大学).docx

此“教育”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN113867934B(45)授权公告日2025.07.04

(21)申请号202110918758.3

(22)申请日2021.08.11

(65)同一申请的已公布的文献号申请公布号CN113867934A

(43)申请公布日2021.12.31

(73)专利权人杭州电子科技大学

地址310018浙江省杭州市下沙高教园区2

号大街

(72)发明人刘鹏何涵

(74)专利代理机构杭州君度专利代理事务所(特殊普通合伙)33240

专利代理师朱月芬

(51)Int.CI.

GO6F9/50(2006.01)

GO6N3/006(2023.01)

GO6N5/01(2023.01)

GO6N7/01(2023.01)

GO6N20/00(2019.01)

(56)对比文件

CN112911648A,2021.06.04CN111787509A,2020.10.16

审查员崔景妹

权利要求书2页说明书6页附图1页

(54)发明名称

一种无人机协助的多节点任务卸载调度的

方法

(57)摘要

CN113867934B本发明公开了一种无人机协助的多节点任务卸载调度方法。本发明基于传统的无模型基于值函数更新的强化学习方法,针对无人机协助边缘计算场景下协助调度问题作了优化,在此基础上创新的提出了小学习目标、预奖励和大奖励敏感等方法。最终在无人机用户节点对时延敏感等的约束下,实现了无人机在有限的服务时间内通过策略选择飞行路径获取利益最大化的问题。本发明的方法不需要过多的先验知识,不需要深入了解每个用户节点的深入信息,符合隐私保护的

CN113867934B

Aetion=la|1,2,3,4}Stata-(loe,reatime,atri,flag)

0.000

attri:1

attri:0

loe:2attri:0

Time

Total_time

CN113867934B权利要求书1/2页

2

1.一种无人机协助的多节点任务卸载调度的方法,其特征在于,该方法的实现过程如下:

步骤一、无人机沿巡回路径飞行,必要时下降高度近距离协助收集地面多个用户节点的数据并在边缘服务器进行任务卸载,对此应用场景构建了马尔可夫模型;

步骤二、初始化强化学习方法的Q表,Q表的行属性为马尔可夫模型里的状态,列属性为马尔可夫模型里的动作;每一个状态动作对应Q表上的一个状态动作值,其大小为该状态动作对应的累积奖励期望;Q表里的初始值为标准归一化后的随机数,这些随机数均接近于0;

步骤三、将应用场景里的限制条件设立成强化学习的小目标,将策略调度后获得的任务剩余价值最大化作为大目标,大目标必须在小目标之后实现;为强化学习的小目标设置了探索性小奖励,其作用是让智能体不受大目标的奖励影响,正常完成小目标;

为了让智能体在与环境交互中获得的累积奖励满足大目标的要求,使用一个存储区间来记忆小目标完成路径上从环境中获得的真实奖励,当小目标完成时,智能体会一次性获得存储区间中累积的真实奖励;当小目标未完成时,智能体获得的探索性小奖励,小于完成小目标后实现大目标过程中获得的真实奖励;

步骤四、设置预奖励,预奖励是无人机向用户节点提供服务时,预先获得的一份奖励;

预奖励的大小设定为任务卸载到服务器后应该获得的奖励的一部分;所有未被卸载到服务器的任务获得的预奖励均会在结束状态赋予一个同等大小的惩罚奖励;

所述的预奖励设置如下:

其中SF为缩小因子,Cnumt为无人机第t次从第n个用户节点收集到的总任务数;σ表示价值衰减因子;value表示第n个用户节点的任务的初始价值;Total表示总时长;

步骤五、在强化学习方法的一个训练周期开始时,智能体会从马尔可夫模型上的初始状态出发,根据改进的ε-greedy策略为智能体选择当前状态的下一步动作;

步骤六、智能体做出动作选择后会抵达下一个环境状态,环境状态会根据当前特征给予对应的奖励;

步骤七、算法最大训练周期到达时停止训练,输出训练收敛的最大累积奖励,并根据Q表的值,从开始状态出发使用贪婪策略来获取一个从开始状态到结束状态的动作序列,即为多节点任务卸载调度的动作策略。

2.根据权利要求1所述的一种无人机协助的多节点任务卸载调度的方法,其特征在于步骤一构建的马尔可夫模型中,状态用S={loc,re

您可能关注的文档

文档评论(0)

aabbcc + 关注
实名认证
文档贡献者

若下载文档格式有问题,请咨询qq1643702686索取原版

1亿VIP精品文档

相关文档