基于关联规则混合算法并行化隐私保护方法研究.docVIP

下载本文档

2
0
约3.94千字
约 9页
2018-08-29 发布于福建
举报
版权申诉

基于关联规则混合算法并行化隐私保护方法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于关联规则混合算法并行化隐私保护方法研究

基于关联规则混合算法并行化隐私保护方法研究　　摘要：随着大数据时代的发展，移动通信技术与定位技术、互联网技术等在工作生活中的应用越来越多，享受科技带来便利的同时，隐私安全问题也不容忽视。文中提出了将关联规则中基于划分的技术、随机扰动与重构技术结合起来，从而实现隐私保护的目的。该方法可以确保在原始数据安全的情况下进行其他数据的挖掘操作，而该算法并行化后，其算法执行的时间复杂度也会大大降低。　　关键词：隐私保护；关联规则；并行化；数据挖掘　　中图分类号：TP393 文献标识码：A 文章编号：2095-1302（2016）07-00-02 　　0 引言　　随着时代与科技的发展，互联网与人们日常工作和生活的关系已经密不可分。用户通过提供详细的个人信息来获取更精准的结果，更快的获得利益，同时这也增加了个人或企业隐私泄漏的可能性。近年来，隐私泄漏的事件频繁发生，如美国有史以来最大的医疗机构泄漏事件；国内社保系统漏洞曝光；国家旅游局系统漏洞导致系统沦陷；12306网站用户信息泄漏等。这些事件都导致大量的私人或企业的敏感信息泄漏，如果这些信息被不法分子利用，将会造成财产等方面的巨大损失，因此必须采取一定的措施来防止隐私信息的泄漏。但最好的方法是政府加强相应的监管，制定配套的政策，在提高隐私保护技术的同时也应提高个人对隐私保护的意识。隐私保护技术是其中重要的一环，也是如今研究的热点问题。对此，本文采取关联规则中基于划分的技术对原始数据中敏感规则的挖掘，利用随机扰动与重构技术隐藏挖掘出来的敏感规则，之后在Hadoop分布式环境中并行化整个算法，以提高算法的执行效率。　　1 基于关联规则混合算法的并行化概述　　首先采用Savasere等人所设计的基于划分的算法挖掘事务项目中的敏感规则，并采取相关方法对其冗余规则进行过滤，得到敏感规则集合。随后采用随机扰动与重构技术对敏感规则集合中的数据加入特定的高斯分布数列生成伪列以进行干扰[1，2]，若干扰后敏感规则隐藏则能达到公开度的要求，过程结束；否则对干扰后的数据进行重构处理，再次利用已知分布生成伪列的方法对敏感规则进行处理，并判断处理后敏感规则是否能够达到公开度的要求。最后对整个算法在Hadoop环境中进行并行化处理，提高算法执行效率。　　1.1 相关概念　　1.1.1 关联规则挖掘　　关联规则实际上反映的是一个事件与其他事件之间的依赖或关联。假定项目集为I={i1，i2，…，in}，事务数据库为D={t1，t2，…，tm}，其中每个事务t所包含的项均是项目集I的子集。一个关联规则定义为X=Y，其中X，Y均是项目集I的子集，并且X，Y无交集。X，Y分别称为规则的左右件。关联规则的强度可以用支持度Support和置信度Confidence衡量。支持度与置信度表示见式（1）、式（2）所示：　　Support（X=Y）=|X∪Y|/|D| （1）　　Confidence（X=Y）=|X∪Y|/|X| （2）　　挖掘敏感规则不仅仅依靠支持度、置信度，还有最小支持度阈值、最小置信度阈值。本文引入了提升度lift来过滤无趣和冗余的规则，见式（3）：　　lift（X=Y）= Confidence（X=Y）/Support（Y）（3）　　在支持度与置信度均分别大于最小支持度与置信度的前提下，利用支持度、置信度、提升度关联衡量准则将关联规则分为3类：　　（1）不相关规则　　如lift（X=Y）的值等于1，则X，Y相互独立不相关。　　（2）冗余规则　　若lift（X=Y）的值小于1，则X的出现对Y是负相关的，属于冗余规则，需要剔除。　　（3）敏感规则　　若lift（X=Y）的值大于1，则X的出现对Y是正相关的，属于敏感规则，需要在下一过程进行保护。　　1.1.2 阈值设定　　为了使挖掘的结果更为精确，使用自适应支持度、置信度阈值与固定相结合的方法[3]。首先设置一个最小支持度、置信度下界b，其中，最小支持度下确界的确定需要结合数据集合的特征，根据实际经验设立。需要考虑的因素有数据集合的大小、特征、历史多期规则的最小支持度等。　　首先对数据库进行扫描，对每项出现的次数进行统计，得到Count（oi），计算每个属性出现的百分比P（i）=Count（oi）/|O|；观察规则X=Y中的项集，如果min（P（i））b，则最小支持度、置信度阈值等于min（P（i））；若min（P（i））b，则最小支持度、置信度阈值等于b。　　1.2 Hadoop并行化概述　　Hadoop是由Apache基金会于2005年开发的分布式系统基础架构，可运行于大规模集群上的分布式并行编程框架，核心设计主要包括Map_Reduce和HDFS。本文主要利