- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于MapReduce隐私保护关联规则挖掘算法研究
基于MapReduce隐私保护关联规则挖掘算法研究
摘要:主要针对关联规则中的Apriori算法在执行过程中产生大量候选集和重复扫描数据库会使串行算法的时间复杂度高和执行率低的缺点,提出了一种基于MapReduce的并行关联规则挖掘算法,对传统的关联规则算法进行并行优化。在Hadoop平台上进行了单机测试和集群测试。分析得出基于MapReduce的关联规则算法克服了串行算法产生大量候选集和重复扫描数据库的两大缺点,从而提高了执行效率。此外,针对目前数据隐私泄露的严重现象,在进行并行化的数据挖掘之前,使用加随机数的方法来保护数据的隐私,并验证了保护数据在关联规则挖掘中保留了高可用性。
关键字:MapReduce;Apriori;Hadoop;隐私保护
中图分类号:TP391 文献标识码 A文章编号:2095-2163(2015)06-
Abstract:The main disadvantage of Apriori algorithm for association rule mining is that it produces large amounts of candidate sets and database scannings during execution, making the serial algorithm having high time complexity and low implementation rate. This paper proposes a new algorithm based on MapReduce,which optimizes the traditional association rule algorithm in a parallel way.Simulations based on the hadoop platform are performed on one single machine and clusters. The results demonstrate that our new algorithm based on MapReduce overcomes the disadvantage of the serial algorithm.What’s more, considering the serious phenomenon of data privacy leaking, the paper uses randomization to protect data privacy before they are mined, and shows the randomized data keep a high utiltity for association rule mining.
Keywords: MapReduce;Apriori;Hadoop;Privacy_Preserving
0 引言
随着各行各业的快速发展,大量的数据开始出现和累积。然而,如何从这些数据中,提取出所需要的有用信息,则已成为时下研究关注、且瞩目的一个焦点问题。作为一个分析工具,数据挖掘可以从大量数据集中发现有趣、有用的信息。现如今数据挖掘的技术已经开始用于商业用途,藉此提高商业价值。数据挖掘主要分为三大领域:分类分析、聚类分析和关联规则分析。尤其是,关联规则分析已经获得了数据挖掘中比较重要的领域地址,具体实现主要分为两步:发现频繁项目集和生成关联规则。关联规则中的一种基本算法就是Apriori算法。该算法在执行过程中会产生大量的候选集,并且还要多次重复扫描数据库。由此可知,随着数据的逐渐增加,有如Apriori这样的传统挖掘算法已经不能快速有效地分析获取有用的信息。基于以上背景所述,本文提出了一种新的基于MapReduce的并行关联规则的算法。此外,随着挖掘技术的不断进步,使得一些敏感、有用的信息相继公开,这就增加了原始数据的风险性。因此,基于隐私保护[1-2]的需求,本文即在数据挖掘前使用了添加随机数的方法,从而实现对数据隐私的保护。
1 国内外研究现状
现在国内外已经应用很多方法解决关联规则挖掘算法[3-6]。随着大量数据的产生,各种并行关联规则算法也随即陆续提出。例如:CD (Count Distribution) CaD(Candidate Distribution) and DD (Data Distribution)[7-8],这些算法可以运用于云计算环境。但是算法却都具有缺乏同步性的缺点。
文献[9]针对Apriori算法产生大量候选项集的缺点,提出了一种频繁模式算法(FP),是一种不用生成候选项目集
您可能关注的文档
最近下载
- 浅谈初中物理教学语言严密性.doc VIP
- 高压配电柜日常维护保养方案.docx VIP
- 国考物理化学真题及答案.doc VIP
- 强制氧化-尿素还原法(FO-UR)烟气脱硝成套技术.doc VIP
- 2024年江苏赛区复赛“扬子石化杯”第38届中国化学奥林匹克(初赛)选拔赛暨化学试题含答案.pdf VIP
- 招标代理服务技术方案104页.docx
- 政府采购项目招标代理机构服务投标技术方案(技术标).pptx VIP
- 2025至2030中国建筑信息模型(BIM)行业发展趋势分析与未来投资战略咨询研究报告.docx
- 2024广东建设职业技术学院招聘笔试真题含答案详解.docx VIP
- 公司法中董事对第三人责任的性质界定与归责原则研究.docx VIP
文档评论(0)