一种改进隐私保护关联规则挖掘方法探究.docVIP

一种改进隐私保护关联规则挖掘方法探究.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种改进隐私保护关联规则挖掘方法探究

一种改进隐私保护关联规则挖掘方法探究摘 要 隐私保护已成为数据挖掘方面的一个重要话题,针对其解决办法也是多种多样。本文所探讨的是保护各数据库机密的关联规则挖掘方面的问题。为得出关联规则,每个参与对象必须数据共享。本文在对每个大类主要的隐私保护方法进行探讨后集中选择一些应用进行实验。实验结果均表明,对敏感规则的隐藏提出改进具有很好的隐私性和适用性。 关键词 关联规则;数据挖掘;隐私保护;数据隐藏;知识隐藏 中图分类号TP18 文献标识码A 文章编号 1674-6708(2012)72-0226-02 0引言 随着信息技术的发展,数据挖掘在一些深层次的应用中发挥了积极的作用。但与此同时,也带来隐私保护方面的问题。例如,通过一般的方法对银行卡客户的交易行为等信息的关联分析,可以发现用户在交易行为上的特点,但不可避免地会造成用户的隐私泄漏。所以在数据挖掘过程中解决好隐私保护的问题,成为数据挖掘的一个研究热点[1-2] 。 数据挖掘的目标是从数据库中提取隐藏的或者是潜在的有用规则或者模式,然而,数据挖掘中隐私保护的目标是把特定的敏感信息隐藏起来,而不被数据挖掘技术发现。对于给定需要隐藏的项目集,对LHS(ISL)法和RHS(DSR)法进行了改进,解决了关联规则提取中的隐私保护问题,同时保证处理后的关联规则在随后的关联规则挖掘中不被发现。 1相关工作 数据隐藏试图在数据泄露前将机密或隐私信息的有关数据删除。知识隐藏是指保密知识远离数据进行保密处理。因为关联规则挖掘的缘故,众多有效的关联规则得以发现;但与此同时,许多不想为人知的隐私规则也暴露无遗。为解决这一矛盾性问题,我们必须对挖掘过程加以限制,以确保这些敏感规则隐藏起来,这方面的解决办法非常之多。其中常用的一种即基于支持度和信任度的分块方法[3-5]。 针对上一节问题给出了问题的解决办法,首先,采用先验算法来找出频繁项集,然后,为获得全局支持度和信任度而不泄露隐私,会采用安全计算法。而针对知识隐藏会采用一种改进算法来达到满意效果。 2算法改进的描述 通过其它方法来隐藏敏感规则时,要删除某个项目或借助一个未知数据来改变原始数据来实现针对如何隐藏信息的关联规则,Wang and Jafari [6]给出两种数据挖掘算法即:增加支持LHS(ISL)法和减少支持RHS(DSR)法。前一种算法旨在增加对规则左边的支持度,而后者则在于减少对规则右边的支持度。有关ISL算法的具体介绍如下: ISL算法 输入: (1)一个源数据库D(2)一个最小支持度(3)一个最小信任度(4)一个项目集X预测 输出:经过修改的数据库D,包括LHS方面的X在内的其中的规则将会隐藏。 从D中找出大的1-项集 对于每个预测项目x∈X 如果x不是一个大的1-项集,那么X:=X-{x} 如果X是空的,那么退出; //不存在包含有LHS里的X的规则 从D中找出大的2-项集 对于每个x∈X{ 对于每个包括x{在内的大的2-项集 计算规则U的可信度,其中U是一个像x→y的规则 如果可信度(U)<最小信任度,那么 进入下一个大的2-项集 否则{// 增加对LHS的支持度 找出TL={t在D|t里面,不支持U} 根据项目数进行升序排列后选出TL 尽管{信任(U)≥最小信任度且TL不是空{ 从TL里选出首项事务t 修改t以支持度x、LHS(U) 计算U的支持度和可信度 从TL中删除首项事务后进行保存 };//结束While };//结束,如果信任(U)<最小信任度 如果TL是空的,那么{ 无法隐藏x→y 重新构建D 进入下一个大的2-项集 }//结束,如果TL是空的 }//结束每个大的2-项集 从X里删除x }//结束每个x∈X 输出更新过的D转换为D 3实验与结论 通过上述方法,敏感规则会被隐藏,但一些非敏感规则也可能也被隐藏,并可能人为生成许多新规则。为解决这一问题,系统应通过使用挖掘结果来对选择过程(挑选出项目以进行修改)加以限制,有关操作步骤如图1所示。 修改选择过程时,我们可以选择其它项作为牺牲项以获得更好的效果。然后,加入一些噪音规则以提高安全性。 由于分块算法的主要不足之处在于,数据集与分块值的数据均不会失真,因此,建立一些噪音规则就成为必要,以使数据集失真,这个可以在剪枝算法环节进行删除。 本文在探讨关联规则挖掘、数据挖掘系统的构建时,对针对隐私保护的一些解决方法进行了详细分析,它们均考虑到数据挖掘过程中存在的主要安全隐患问题。通过采用ISL和DSR方法来实现对敏感规则的隐藏;同时,本文提出了一种可以获得更佳效果的优化方法,其负面影

您可能关注的文档

文档评论(0)

linsspace + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档