隐私保护的共享协同过滤算法研究.docVIP

下载本文档

21
0
约1.06万字
约 19页
2021-01-06 发布于北京
举报
版权申诉

隐私保护的共享协同过滤算法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

隐私保护的共享协同过滤算法研究摘要：随着互联网和普及和电子商务的发展，推荐系统逐渐成为该领域的一个重要的研究内容，受到越来越多的研究者的关注。如今几乎所有大型电子商务网站都不同程度的提供了各种形式的推荐系统。协同过滤(Collaborative Filtering, CF)算法是个性化推荐系统中诞生较早，较为成功且应用非常广泛的技术之一。影响协同过滤算法推荐质量的主要因素之一是查找目标用户的近邻用户群准确度，算法随后基于这些用户对目标用户尚未评价的项目进行预测。协同过滤算法依赖用户历史行为数据。随着电子商务系统规模的扩大，用户数目与项目数目急剧上升，并且用户评分数据稀疏性极高，传统协同过滤算法无法保证推荐的实时性。更大的数据集有助于协同过滤算法得到更准确的推荐结果，并能在一定程度上解决基于协同过滤的推荐系统对于新个体存在的冷启动问题。但这些数据通常分别属于不同平台，出于数据价值和用户隐私的考虑，这些平台不愿意将数据提供给其他方。为在保证各方数据安全性的前提下结合多方数据，允许各方共同参与计算推荐结果以提升实时推荐结果的准确性，必须首先解决在尽可能渐少性能降低的情况下保护各方数据隐私的问题。针对此类问题，本文提出利用局部敏感哈希(Local Sensitive Hashing, LSH)改进协同过滤推荐算法，将评分数据降维并存储在哈希表中，降低近邻用户群计算成本并起到一定用户隐私保护的作用。对于多方参与的推荐系统，提出基于同态加密(Homomorphic Encryption, HE)的协同过滤实现方案，保护各平台数据隐私的同时，为用户提供更加精准的推荐服务。关键词推荐算法，局部敏感哈希，隐私保护，同态加密针对基于协同过滤的推荐系统中存在的冷启动问题以及为了进一步提升推荐的准确性，系统的使用者有扩充数据集容量的需求，而这种扩充伴随这两个明显的问题：其一，传统的经典协同过滤推荐系统在维度和稀疏程度高的用户-项目评分矩阵上运行效率较低，实时性差;其二，扩充数据集容量的最有效方式是借助其他平台的数据，但这些属于不同平台的数据通常出于用户及商业隐私的考虑，不能被直接共享。针对以上两点问题，本文对提高基于协同过滤的推荐系统的实时性以及保障数据隐私的情况下多方参与推荐结果计算两个问题进行探究。国内外研究现状 1992年Xerox公司在解决研究中心咨询过载问题时，为帮助员工处理邮件过多的问题，最早公开应用了名为Tapestry的协同过滤算法模型。此后于1994年，名为GroupLens的系统改进了此模型并作为新闻筛选和推荐的系统，可以视为是目前广为使用的基于协同过滤的推荐系统的经典实现。此后，协同过滤在各大电商网站上流行起来，以亚马逊的图书业务为代表。如今，基于协同过滤的推荐系统在新闻，电影，音乐等领域都以不同形式，不同实现方式被广为应用。数据的隐私保护问题最早由Dalenius于20世纪70年代末提出，他认为保护数据库中的隐私信息，就是要使任何对数据库的访问过程中无法获取关于任意个体的确切信息，这一定论具有一定理论指导意义，但缺乏量化标准。从目前的研究成果来看，k-anonymity[1]及其扩展模型在数据隐私保护领域具有非常深远的影响，其基本思想是将数据集中与攻击者背景知识相关的属性进行泛化和压缩处理，使得数据集中的所有记录被划分至若干个等价类，因此这类模型也被称为基于分组的隐私保护模型。但后续研究和实践表明这类模型无法对数据隐私提供足够的安全保障。其改进版本l-diversity[2]，(a, k)-anonymity[3]，t-closeness[4]，M-invariance[5]，m-confidentiality[6]相继被提出。尽管如此，合成式攻击[7]，前景知识攻击[8]，deFinetti攻击[9]等新的攻击方式都对基于分组的隐私保护模型形成了挑战。这些攻击能够成功的根本原因在于基于分组的隐私保护模型的安全性与攻击者所掌握的背景知识相关，而所有可能被攻击者掌握的背景知识很难被充分定义。此外，由于缺少一种明确的量化标准来评估这些模型的隐私保护水平，因此这些模型的可靠性难以保证。 1976年前，广为使用的加密方式为对称加密，即加密规则于解密规则为同一规则，因此存在密钥传输过程的安全性问题。1976年，Diffie和Hellman提出了非对称加密的构思[10]，保证了只要私钥不透露，通信即可视为安全的。1997年，Rivest，Shamir和Adleman设计了一种名为RSA的加密算法，实现了非对称加密，对密码学甚至信息技术领域产生了深远的影响。同态加密时密码学领域的一个重要课题，它支持在被委托方仅持有密文的情况下参与并完成代数计算。