策略产品经理必读系列——第五讲联邦学习.docxVIP

下载本文档

1
0
约4.84千字
约 15页
2022-09-15 发布于湖南
举报
版权申诉

策略产品经理必读系列——第五讲联邦学习.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

策略产品经理必读系列——第五讲联邦学习前言联邦学习是近些年研究非常热门的领域，目前在工业界很多领域已经落地应用了。本篇文章主要面向产品运营等非专业技术人士，通俗易懂地讲解什么是联邦学习，主要解决什么问题，以及在工业界的实际落地案例。一、联邦学习的发展历程提到联邦（Federation），大家估计首先想到的就是英联邦或者美联邦，美国各个州组合在一起形成一个联邦。联邦学习（ Federated Learning），字面直译也就是多方参与，共同学习。 1. 最初的起源——横向联邦学习联邦学习最早是谷歌在2017.4月提出的，谷歌为此专门出了一个漫画来解释什么是联邦学习：/p/101644082。谷歌最开始提出联邦学习时是为了解决C端用户终端设备上模型训练的问题。C端用户手机上的智能软件提供服务时背后都得依靠模型，而模型的训练学习全部要基于用户的数据。比如手机上的输入法，基于不同人的打字拼音习惯，输入法会不停更新会慢慢和每个人的打字习惯进行匹配，用户会觉得输入法越来越智能。那么过去这些手机输入法是如何进行模型训练的了？过去的做法：将用户每天产生的行为数据全部上传至云端服务器，部署在服务器上的模型基于上传的数据进行训练，然后更新模型，最终实际应用时本地需要请求云端服务。大致流程如下图：上述这种模型训练的方式，我们也叫做“集中式模型训练”，这种方式有两个弊端：无法保证用户的数据隐私：服务商将用户的数据全部采集到了服务器上进行统一管理。这种方式在监管对个人数据隐私管控越来越严的情况下，会越来越受限；实时性难以保证：模型在应用时需要通过网络请求云端的模型，在网络延迟或者没有网络的情况下，模型没办法发挥它的作用。为了解决上述的弊端，谷歌提出了一种新的解决方案，并将它命名为“Federated Learning”。总的来说就是：用户数据不出本地，所有模型的训练都是在设备本地进行。本地模型训练完毕后将得到的模型参数or下降梯度，经过加密上传至云端，云端模型接收到所有上传的加密参数or梯度后，结合所有的参数值进行统一的聚合，比如通过加权平均得到新的模型参数or下降梯度，然后将新的结果再重新下发到本地，本地更新得到一个全新的模型。这种方式我们又叫作“分布式模型训练”，大致的做法如下图：上述这种模型训练的方式有一个基本的要求：本地模型-Local Model和云端模型- Global Model的特征必须一致：因为我们是汇总了无数本地模型的参数，基于这些参数对云端模型进行更新。如果这些模型的特征不一致，那么参数之间也没有任何参考意义。比如一个预测身高的模型，本地模型用“性别+年龄”特征，云端模型用“体重+肤色”特征，本地模型训练得到的模型参数上传到云端，云端根本毫无参考价值。所以上述这种联邦学习我们又叫作“横向联邦学习”，模型之间使用的特征一致，只是使用的样本数据不一样。比如说下图本地模型使用的用户特征都是一样的，但是每个本地模型只能使用本地这一个用户的数据，无法使用其他用户的数据进行训练。谷歌这种“分布式模型训练”的新模式一方面保护了用户隐私，用户数据不离开本地；另一方面训练好的云端模型又下放到本地进行应用，这样即使没有网络也可以使用。读者可能还会对上述的联邦学习方案存在以下几个疑惑： 1）本地模型如何训练更新？很多时候我们的手机都处于闲置的状态，这个时候本地模型就可以开始训练和上传加密参数；就像人体一样，睡眠的时候长高和做梦来更新大脑的认知系统。 2）模型部署本地会不会占据太多资源？很多时候我们在云端服务器的模型都是几个G，下放本地会不会很占资源。这种模型都是需要经过压缩和部分的特征删减，确实特别大的模型无法下放本地。 3）上传的数据可以是模型的特征参数或模型训练的下降梯度嘛？这二者均可，本身模型上的特征参数也是通过梯度下降法计算出来的，所以给下降梯度也是可以得到最终模型的特征参数。 4）上传的数据为什么还要加密？加密的数据又如何使用？如果这些数据不进行加密的话，有可能通过这些数据进行反推导，将原始数据推导出来，当然这个难度也很大，但为了保险起见还是将所有的数据都进行加密上传。云端得到的是一个加密数据包，基于加密状态下的数据包云端模型即开始更新计算，这里面有大量密码学的知识在此不详细展开，是一种“同态加密”的算法。整个计算过程中云端模型均不知道加密数据包里面的具体内容。 2. B端的延伸——纵向联邦学习联邦学习最开始被谷歌提出时是为了解决C端用户上传数据隐私问题。但是在实际工业界的问题是B端企业之间的数据孤岛问题。比如京东和腾讯之间的合作。京东和腾讯之间的用户肯定有绝大一部分是重叠的，京东有这部分用户的电商数据，腾讯有这部分用户的社交数据。如果二者将彼此之间的数据共享，那么彼此各项模型上的效果都会有大幅提升，