基于博弈论和强化学习的联邦学习激励机制研究.pdf

下载文档

1
0
约12.09万字
约 57页
2025-03-28 发布于江苏
举报
版权申诉
保障服务

基于博弈论和强化学习的联邦学习激励机制研究.pdf

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、本文档共57页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

摘要

跨筒仓联邦学习是一种重要的分布式机器学习范式，它在隐私保护、数据安全

方面有着独特的优势，能被广泛地应用在如智能工厂、医院、银行等场景。由于网

络的分布式特征，在跨筒仓联邦学习中如何激励组织积极地合作训练全局模型是一

个重要的研究方向，一方面不同组织训练成本和全局模型的精度需求不同，且组织

的计算和通信资源的稀缺性、私有性和异质性等特点导致组织间难以合作训练。另

一方面在训练过程中组织可能因为全局模型精度边际效用降低而对于使用多少数据

量难以抉择，这会导致各组织在训练过程中可能不愿意贡献过多自身数据来参与训

练。为应对上述挑战本文研究了区块链赋能的跨筒仓联邦学习货币转移激励机制，

以及多智能体强化学习自适应数据贡献策略问题，具体工作如下：

（）本文研究区块链赋能的跨筒仓联邦学习激励机制，考虑到跨筒仓联邦学习

中组织的异质性以及公共产品特性，以及组织之间的策略互动具有完全信息的特征，

提出一种基于博弈理论的社会福利最大化货币转移激励方案，证明了博弈的纳什均

衡存在且唯一。最后，提出一种分布式激励算法以最大化组织的社会福利。在使用

MNIST数据集进行仿真时，研究发现该机制与算法有效达到了纳什均衡，说明在维

护组织间合作的同时，可以有效提升整体的社会福利。特别是当各组织更加重视模

型准确度时，通过本文提出的机制与算法，能够促进更大的共同利益。

（）本文研究了基于多智能体强化学习的自适应数据贡献策略，组织在参与跨

筒仓联邦学习时，对于过程中使用多少数据量训练本地模型能够最大化自身收益难

以抉择，为此我们设计一种基于多智能体最近策略优化的强化学习算法，结合了策

略梯度和差分神经计算机来解决组织在动态环境中如何决策贡献数据资源。输入的

数据量被视为精度的函数，各组织学习与这种环境状态进行交互，以近似最佳的数

据贡献策略。此外为鼓励组织贡献更多数据参与训练我们设计了奖励再分配机制，

我们利用博弈论来分析组织之间的交互，证明了组织之间的相互作用是一种加权潜

在博弈，确保了纳什均衡的存在。最后实验结果表明，我们的方法在动态环境中实

现了自适应贡献策略，在贡献最佳数据量的同时有效提高了组织的长期收益。

关键词：跨筒仓联邦学习；激励机制；非合作博弈；多智能体强化学习

ABSTRACT

Cross-silofederatedlearningisanimportantdistributedmachinelearningparadigm

thathasuniqueadvantagesinprivacyprotectionanddatasecurity,andcanbewidely

appliedinscenariossuchassmartfactories,hospitals,andbanks.Duetothedistributed

characteristicsofnetworks,howtomotivateorganizationstoactivelycooperateintraining

globalmodelsincrosssilofederatedlearningisanimportantresearchdirection.Onthe

onehand,differentorganizationshavedifferenttrainingcostsandaccuracyrequirements

forglobalmodels,thescarcity,privacy,heterogeneityofcomputingandcommunication

resourcesamongorganizationsmakeitdifficultfororganizationstocooperateintraining.

Ontheotherhand,duringthetrainingprocess,organizationsmayhavedifficultydeciding

howmuchdatatousedue

您可能关注的文档

文档评论（0）

qiutianfeng + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

基于博弈论和强化学习的联邦学习激励机制研究.pdf