关联规则隐藏算法总结.docVIP

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关联规则隐藏算法总结

关联规则隐藏算法总结   摘 要:近年来,数据挖掘备受青睐,它可以从大量数据集合中提取隐藏的知识。如何实现既找到数据中隐藏的知识,又不透露其中的敏感信息尤为关键。隐私保护数据挖掘(PPDM)能够实现对敏感信息的保护,关联规则隐藏是PPDM技术中的一种,用来保护敏感性的关联规则。总结了关于隐私保护的数据挖掘方法并指出了其优缺点,同时重点对关联规则隐藏算法进行了分析。   关键词关键词:数据挖掘;隐私保护;关联规则隐藏   DOIDOI:10.11907/rjdk.162016   中图分类号:TP312   文献标识码:A 文章编号文章编号2016)011004602   0 引言   隐私保护数据挖掘在数据挖掘领域是一个富有成效的研究课题。PPDM的目的是通过各种方法转换现有的数据集,甚至在挖掘的过程中,一些数据在某种程度上的机密性依然保持不变。在数据挖掘中,用户给出数据并免费使用他们自己的工具。因此,数据挖掘之前的隐私保护要应用在用户自己的数据上。鉴于此,需要开发新的隐私保护控制系统,也即将这些数据集转换成一个新的数据集来保护原始数据。提出关联规则隐藏算法的目标是为了保护一些特别的数据,使其在关联规则隐藏算法的过程中不被发现。例如:政府想推出一些关于农村地区发展的新计划,农村部门有关于农民和劳动的数据库,他们想通过第三方分析这些数据,但是不能揭示农村劳动者的个人信息;又如:商店想要了解消费者的购物行为,该例中消费者的数据不是很重要,但是从数据所分析出的结果需要得到保护。   数据挖掘是一种从海量信息中挖掘出有用信息的技术。在当前社会,共享和发布信息已经成为常见现象。然而,数据的搜集和分析会暴露个人隐私。目前,隐私保护数据挖掘已经引起了广泛关注,许多关于隐私保护的技术因此被提出。本文将讨论不同的隐私保护技术及它们的优缺点,并重点讨论关联规则挖掘算法。   数据挖掘可以在很短时间内分析大量的信息,智能算法将一些敏感性和机密性的数据存储在大量分支数据中。各种各样的挖掘技术中也许包含很多关于个人和组织的敏感性信息。关联规则挖掘就是从给出的数据中发现一些能够满足预先定义好的最低值和机密度的关联规则。该问题通常被分解为两个子问题:一是找出该项目中谁的发生超出了预先定义的临界值,这些被称为频繁大项集;二是从这些大项集中产生关联规则。关联规则隐藏是指修改原始数据的过程,在该过程中,一些确定的敏感性关联规则消失,但是并不影响数据和一些不敏感规则。   通过转换将一些敏感性的数据隐藏起来的过程叫做数据清洗过程。为了进行转换,一个小数量的交易需要通过删除一个或多个项目而发生改变,或者一些交易是通过将错的改为对的来添加噪声数据集,发布的数据库称为清洁数据库。同时,该方法也稍微修改了一些数据,但是在实际应用中非常容易被接受。   1 关联规则隐藏算法相关技术   关联规则隐藏算法阻止敏感性规则被公开。其主要问题归纳如下:给定一个事务数据库X用最小机密度、最小支持度,以及一系列从数据库X中挖掘出来的规则。一个R的子集RH为敏感性关联规则,该子集不能被公开。关联关系隐藏的目的是将X转换为X′,通过这些方法任何人将不会挖掘出属于RH的规则,而且属于R的不敏感规则也不会受到影响。   1.1 启发式技术   启发式技术解决如何确定合适的数据集对数据进行转换。启发式技术的转变方法既包括扰动项,通过改变其属性值完成(例如改变属性值由1到0),还包括阻塞项,用“?”改变现存的属性值。   1.1.1 基于扰动的方法   基于数据扰动提出对数据的启发式修改,它将一个被选择的属性值由1改为0,因此敏感规则的支持度将会减少,发布数据的效应将会达到最大。其关键的一步是借助于启发式的思想如何将X变为X,。   Agrawal and Srikant使用数据扰动技术来改变数据,这样可以根据原始数据的相似值获得改变过的数据版本,同样挖掘规则也相应地改变为相似的挖掘规则。这个重建的分布用来构造一个新的模型。   本文提出了5种算法,所有这些算法都是基于扰动技术,其中3种是隐藏一些关联规则,剩下的两种是隐藏大项集。这5种算法都用到了参数,具有有效性。由于首先要根据它们的种类隐藏关联规则,因而副作用也很明显。   文献[1]力求在隐私数据和公开数据中达到平衡,即尽量减少关于消除事项的相互影响,并且尽量减少偶然和替代事项。其效应是测量隐藏在修改过程中产生副作用的无敏感规则的数量。   1.1.2 基于阻塞的方法   通过用一个问号或者一个真值替代一个确定的数据来减少敏感规则的支持度和置信度,该方法已经在实施。最小的支持度和最小的置信度相应地改变成一个最小的支持区间和最小的置信区间。如果一个敏感规则的支持度和/或者置信度在该

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档