- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
策略产品经理必读系列——第五讲联邦学习
前言
联邦学习是近些年研究非常热门的领域,目前在工业界很多领域已经落地应用了。本篇文章主要面向产品运营等非专业技术人士,通俗易懂地讲解什么是联邦学习,主要解决什么问题,以及在工业界的实际落地案例。
一、联邦学习的发展历程
提到联邦(Federation),大家估计首先想到的就是英联邦或者美联邦,美国各个州组合在一起形成一个联邦。联邦学习( Federated Learning),字面直译也就是多方参与,共同学习。
1. 最初的起源——横向联邦学习
联邦学习最早是谷歌在2017.4月提出的,谷歌为此专门出了一个漫画来解释什么是联邦学习:/p/101644082。
谷歌最开始提出联邦学习时是为了解决C端用户终端设备上模型训练的问题。C端用户手机上的智能软件提供服务时背后都得依靠模型,而模型的训练学习全部要基于用户的数据。比如手机上的输入法,基于不同人的打字拼音习惯,输入法会不停更新会慢慢和每个人的打字习惯进行匹配,用户会觉得输入法越来越智能。
那么过去这些手机输入法是如何进行模型训练的了?
过去的做法:将用户每天产生的行为数据全部上传至云端服务器,部署在服务器上的模型基于上传的数据进行训练,然后更新模型,最终实际应用时本地需要请求云端服务。大致流程如下图:
上述这种模型训练的方式,我们也叫做“集中式模型训练”,这种方式有两个弊端:
无法保证用户的数据隐私:服务商将用户的数据全部采集到了服务器上进行统一管理。这种方式在监管对个人数据隐私管控越来越严的情况下,会越来越受限;
实时性难以保证:模型在应用时需要通过网络请求云端的模型,在网络延迟或者没有网络的情况下,模型没办法发挥它的作用。
为了解决上述的弊端,谷歌提出了一种新的解决方案,并将它命名为“Federated Learning”。
总的来说就是:用户数据不出本地,所有模型的训练都是在设备本地进行。本地模型训练完毕后将得到的模型参数or下降梯度,经过加密上传至云端,云端模型接收到所有上传的加密参数or梯度后,结合所有的参数值进行统一的聚合,比如通过加权平均得到新的模型参数or下降梯度,然后将新的结果再重新下发到本地,本地更新得到一个全新的模型。
这种方式我们又叫作“分布式模型训练”,大致的做法如下图:
上述这种模型训练的方式有一个基本的要求:
本地模型-Local Model和云端模型- Global Model的特征必须一致:因为我们是汇总了无数本地模型的参数,基于这些参数对云端模型进行更新。如果这些模型的特征不一致,那么参数之间也没有任何参考意义。
比如一个预测身高的模型,本地模型用“性别+年龄”特征,云端模型用“体重+肤色”特征,本地模型训练得到的模型参数上传到云端,云端根本毫无参考价值。
所以上述这种联邦学习我们又叫作“横向联邦学习”,模型之间使用的特征一致,只是使用的样本数据不一样。比如说下图本地模型使用的用户特征都是一样的,但是每个本地模型只能使用本地这一个用户的数据,无法使用其他用户的数据进行训练。
谷歌这种“分布式模型训练”的新模式一方面保护了用户隐私,用户数据不离开本地;另一方面训练好的云端模型又下放到本地进行应用,这样即使没有网络也可以使用。读者可能还会对上述的联邦学习方案存在以下几个疑惑:
1)本地模型如何训练更新?很多时候我们的手机都处于闲置的状态,这个时候本地模型就可以开始训练和上传加密参数;就像人体一样,睡眠的时候长高和做梦来更新大脑的认知系统。
2)模型部署本地会不会占据太多资源?很多时候我们在云端服务器的模型都是几个G,下放本地会不会很占资源。这种模型都是需要经过压缩和部分的特征删减,确实特别大的模型无法下放本地。
3)上传的数据可以是模型的特征参数或模型训练的下降梯度嘛?这二者均可,本身模型上的特征参数也是通过梯度下降法计算出来的,所以给下降梯度也是可以得到最终模型的特征参数。
4)上传的数据为什么还要加密?加密的数据又如何使用?如果这些数据不进行加密的话,有可能通过这些数据进行反推导,将原始数据推导出来,当然这个难度也很大,但为了保险起见还是将所有的数据都进行加密上传。
云端得到的是一个加密数据包,基于加密状态下的数据包云端模型即开始更新计算,这里面有大量密码学的知识在此不详细展开,是一种“同态加密”的算法。整个计算过程中云端模型均不知道加密数据包里面的具体内容。
2. B端的延伸——纵向联邦学习
联邦学习最开始被谷歌提出时是为了解决C端用户上传数据隐私问题。但是在实际工业界的问题是B端企业之间的数据孤岛问题。比如京东和腾讯之间的合作。京东和腾讯之间的用户肯定有绝大一部分是重叠的,京东有这部分用户的电商数据,腾讯有这部分用户的社交数据。如果二者将彼此之间的数据共享,那么彼此各项模型上的效果都会有大幅提升,
您可能关注的文档
最近下载
- 子宫内膜息肉(宫腔镜子宫病损切除术)临床路径【2020版】(1).pdf VIP
- 《3000吨年产量的橙汁饮料生产工厂设计》14000字.doc VIP
- 基于simulink的综合通信系统的设计报告.pdf VIP
- 口腔解剖生理学考试题库及答案.docx VIP
- (电气工程及其自动化-电力系统自动化技术)电力系统自动化技术试题及答案.doc VIP
- 年产3000吨果汁饮料项目环评报告.doc VIP
- (电气工程及其自动化)电力系统试题及答案.doc VIP
- 毕业设计-年产3000吨猕猴桃果汁工厂工艺设计.doc VIP
- 2023年广西民族大学网络工程专业《数据结构与算法》科目期末试卷B(有答案).docx VIP
- 郡士田宫对照表.pdf VIP
原创力文档


文档评论(0)