基于k-匿名隐私保护.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于k-匿名隐私保护

基于k-匿名隐私保护   摘 要:随着数据挖掘等相关技术的快速发展,数据发布过程中敏感信息的泄漏问题也日益突出。在数据发布的使用过程中,对数据分析的同时,需要一种既能保护数据的完整性,又能对隐私数据进行保护的方法,即隐私保护。隐私保护已成为数据库安全研究中的一个新热点。k-匿名技术就是一种在数据发布过程中实现隐私保护的有效方法。分析了基于k-匿名的隐私保护的概念、k-匿名模式、k-匿名模式保护数据中个人信息的方法以及k-匿名模式存在的问题,同时对一些用来克服这些问题的加强模式进行了研究,总结了一些可以用来实施k-匿名模式的主要技术。   关键词:数据挖掘 隐私保护 k-匿名   中图分类号:TP39文献标识码:A 文章编号:1007-3973 (2010) 03-041-03   1引言   随着信息技术,特别是网络技术、数据存储技术和高性能处理器技术的飞速发展,海量数据的收集管理和分析变得越来越方便,知识发现和数据挖掘更是在一些深层次的应用中发挥了积极的作用。但与此同时,也带来了隐私保护方面的诸多问题。例如,治安系统中的违法记录,银行卡客户的交易行为,电信用户的个人信息,购房等信息中的关联关系,都对政府和企业决策具有相当重要的意义,但同时又都是公民非常注重的个人隐私。所以,如何在数据挖掘过程中解决好隐私保护的问题,目前已经成为数据挖掘界的一个研究热点。   首先需要明确的是,可能泄露隐私的并不是数据挖掘技术本身,而是数据挖掘方法的特定应用和具体过程。数据挖掘有一个重要特征,就是从大量数据中挖掘得到模式或者规则,通常是针对综合数据而非细节数据。那么,我们是否可以基于非精确的原始数据而抽取出准确的模式与规则呢?实现隐私数据的合理保护和基于统计数据的模式抽取两者兼得,正是隐私保护数据挖掘方法研究的出发点和最终目标。   2 k-匿名模式   越来越多的机构正在通过交换或者发布有关个人的未经整理的信息来共享资源。这些数据通常不包括用户标识符、准标识符。例如,个人的姓名、医保卡号、家庭住址通常不包括在内。假定这些个人信息是未被识别的,那么他们的隐私,如诊断的病情信息就可以得到保护。   然而,采用这种未???别的处理方式并不能保护数据中的个人隐私。Sweeney报道了在美国,87%的人可以根据结合他们的几项属性而被分辨出来:性别、生日和5位数的邮政编码。Sweeney研究了有关Massachusetts州总督的医疗记录,假设医疗记录以匿名模式存在,结果显示总督的医疗数据可以通过链接攻击而被分辨出来。Massachusetts州的投票注册记录包括名字、性别、邮政编码和生日,而在医疗记录中,性别、邮政编码、生日是对病人病情进行诊断的依据,需要记录。这样通过对两个表进行链接,如图1所示,就可以得到个人的身体健康状况,造成个人隐私泄漏。      图1链接攻击   Samarati和Sweeney提出一种隐私保护模式――k-匿名模式。如果数据集中的每一个记录都与至少k-1个关于这个数据集中的准标识符属性记录相同,那么这个数据集满足k-匿名,这个数据集就被称为k-匿名。结果,在k-匿名数据集中,个人就无法从最少k-1个个人群中被分辨出来。   例如,表1显示了一个原始的医疗数据集。它不包括个人的身份证号、医保号、姓名、家庭地址等标识符。但一些准标识符,如性别、年龄和邮政编码依然存在于表1中,这些属性集可以间接的用于分辨个人的信息。通过这种独特的组合,病人的医疗信息就可能被泄漏。   表 1原始医疗数据集      为了避免侵犯隐私,表1可以修改为表2。   表 2表1的k-匿名表      在表2中,年龄以间隔形式分组,邮政编码被集束到广大地区,‘*’代表一个任意数字。一项准标识符中的记录至少与其他3个记录相同,因此,没有任何个人可以被识别。   由于k-匿名模式的简洁性和适用于多种算法的属性,k-匿名模式在数据发布中变得非常流行。但是,在受到攻击的情况下,k-匿名模式仍然会泄漏一些敏感的信息,因此,它并不能完全保证隐私的安全性。   3加强型k-匿名模式   在受到以下两种攻击的情况下,k-匿名模式可能会揭露一些敏感的信息。   (1)对k-匿名表的同质性攻击   张三和李四是两个并不和睦的邻居。张三知道李四最近到医院检查,张三试图通过医院发布的与表2相似的k-匿名的医疗数据表推断出李四的病情。他知道李四是年龄40多岁,居住地的邮政编码为650500。李四一定属于报告编号为9、10、11、12其中之一。所有这四个人都患有神经衰弱。张三可以确切地知道李四患有神经衰弱。   因此,k-匿名表中的敏感属性的相似性可能导致个人信息的泄漏。   (2)利用背景知识对k-匿名表进行攻击   李明和赵

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档