2025【基于强化学习的时空众包任务分配算法设计15000字（论文）】.docVIP

下载本文档

8
0
约2.01万字
约 25页
2025-05-14 发布于湖北
举报
版权申诉

2025【基于强化学习的时空众包任务分配算法设计15000字（论文）】.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

PAGE2

基于强化学习的时空众包任务分配算法设计

TOC\o1-3\h\z\u8920第1章绪论 2

7460第2章相关理论技术 2

248382.1马尔可夫决策过程 2

321282.2强化学习 3

118732.3自适应时间窗口方法 4

3262第3章基于强化学习的时空众包任务分配算法 5

212093.1对时空众包任务分配的MDP建模分析 5

983.2应用Q-learning算法求解 6

199463.3评价标准 8

8664第4章实验设计及结论 9

296104.1基于强化学习的任务分配算法实现 9

194114.1.1MDP建模实现 9

305064.1.2Q-learning算法设计 10

173124.1.3实验结果及分析 13

299494.2基于最大匹配的移动众包任务分配研究 14

220384.2.1MTM算法介绍 14

263444.2.2MTM算法的结果及分析 15

74384.3基于效益最优化的空间众包任务分配研究 16

291804.3.1OE算法介绍 16

147224.3.2OE算法的结果及分析 18

191224.4实验结果对比分析 18

28615结论 20

1734参考文献 20

绪论

在传统模式中，每个企业独立需要完成除本企业核心业务之外的其他业务，导致了企业运行成本增加，工人的工作效率降低。在现代工作中，出现了一种新颖的工作方案，企业可以将非必要业务外包给其他专业公司，外包公司解决企业本身不易解决的难题，企业专注于自身的核心业务，做自己精通的业务工作。这类难题在外包出现后得到了极大的改善，极大的降低了公司运营时的成本，而且更加高效。通过外包模式无法解决的一部分难题在群智协同计算可以得到解决。群智协同计算模型将公共智能与移动互联网技术相结合，构建覆盖范围广、执行效率高的无线传感网络（刘天华，陈丽霞，2022）。并将传感网络上的任务分配给携带智能设备的个人或组织，通过群智资源的协调来解决问题。

群智协同计算系统包括三部分，分别是群智服务计算平台，移动用户与数据应用者，该系统自底向上可以分为三层，分别是系统应用层，网络传输层与群智计算处理层（张晓东，徐丽娟，2023）。系统应用层主要处理两部分事件，数据感知与数据应用，一般情况下，数据应用者处于数据应用部分，他们通过网络传输层向群智计算服务器提交任务请求，群智计算服务器获取到任务信息后，将任务发布到系统应用层中的移动用户。移动用户在得到服务器分配的任务后，携带自身的智能设备前往对应的环境去收集环境数据执行数据感知的职能（贺俊驰，邱馨予，2021）。得到数据后重新上传到群智计算服务器处理，计算完成后再通过网络传输层返回给数据应用者。整个流程实现了数据从人群中来又到人群中去，完全由人类提供数据作为支撑。一般情况下，移动用户作为众包工人出现，数据应用者作为任务请求者出现。

相关理论技术

2.1马尔可夫决策过程

强化学习的原理可用图2.1表示，智能体（Agent）在执行一项工作时，首先通过动作A与周围环境(Environment)进行交互,智能体会依据当前的状态选择一种动作，从而产生新的状态，同时环境会依据智能体所采取的动作给出智能体一个回报(Reward)。智能体与环境不断的进行交互产生很多组数据（石俊熙，乔嘉豪，2021）。这间接证明了强化学习利用这些数据不断地修改自身的策略（Policy）,智能体最终可以得到问题的最优解。

强化学习历经数十年的探索，已经有了一套可以解决绝大部分强化学习问题的框架，这个框架是马尔可夫决策过程（MarkovDecisionProcess,MDP）在了解马尔可夫决策过程之前需要先了解马尔可夫性，马尔可夫过程（邸晓东，孙文静，2021）。

图2.1强化学习原理

2.2强化学习

单智能体强化学习主要由两部分构成，分别是智能体（Agent）与环境（Environment）。强化学习使用马尔可夫决策过程作为模型。情景任务是一个具有终端状态的任务，在强化学习中，情景可以看作是从初始状态到终端状态中智能体与环境之间的交互，智能体通过试错的方式来进行学习（陈思远，赵明杰，2021）。本文同样进行了结论的复查，本阶段研究成果确保研究发现与现有学术结构的一致性，从理论上加以巩固。智能体每做一次决策将会得到一个奖励，从而使智能体加强对生成这个行为的策略倾向。智能体所需要学习的是，在一个环境中如何选择动作来获得最大奖励（温子墨，庞启航，2021）。这在一定程度上预示连续选择动作构成了策略，即策略是指状态到动作