- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
云环境下基于匿名方法隐私保护技术实现
云环境下基于匿名方法的隐私保护技术实现
摘要:文章首先介绍了当前关于隐私保护的模型;然后结合多维映射的思想实现了一种K-匿名模型的算法和一种L-diversity模型的算法,同时在实现K-匿名模型的算法时,采用欧几里得矢量距离计算了不同K值下匿名化数据表后的信息损失度,并通过实验数据验证了信息损失度随着K值的增大而增大的预期结论。最后,文章实现了匿名化数据实验平台可供医疗研究机构。
关键词:K-匿名;L-diversity;多维映射;欧几里得矢量距离;隐私保护
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2017)32-0053-03
1 概述
近年来随着数据挖掘技术的快速发展,大量数据中的知识和价值开始被人类利用起来,从而创造新的价值造福于人类。尤其是在医疗信息发布领域,里面包含大量用户身体状况等隐私信息,这些内容不仅仅是医生进行疾病预防的重要依据,而且是医学研究的重要依据。对这些数据进行合理的发布,意义重大。
对要发布的数据表进行匿名化操作处理,是实现隐私保护的较为有效的技术手段之一。即在数据发布以前,首先去掉一些能够唯一标识一个个体的属性,然后采用一些方法对其中的一些属性进行匿名化处理,使得发布的信息不能完全显示用户的信息,从而使攻击者无法从发布的信息中通过链接攻击暴露用户的敏感信息,从而达到隐私保护的效果。
K-匿名隐私保护技术是Samarati和 L Sweeney 在1998年提出来的[1],2002年,L.Sweeney将它正式命名为K-匿名模型[2]。在数据发布应用场景中,该匿名化技术可以有效地防止攻击者通过链接攻击的手段获取用户的敏感信息。在最近几年中,基于K-匿名的隐私保护技术已经成为很多科研院校和科研机构研究的热门课题之一[3-14]。
2 匿名化技术的基本概念
2.1 K-匿名技术的相关概念
1) 显示标识符属性(Idenyifiers):表示一个个体或者是一条记录的唯一标识。在数据发布之前,通常是会被删除的。例如,身份证号、姓名等。
2) ?时晔斗?属性(Quasi-Idenyifiers,QI):在给定的数据表T=([A1],[A2],[…],[An]),其中表T中的一组最小的属性集合QI=([Ai1],[Ai2],[…],[Aim])([i1i2…in]),如果将这些属性与外部的攻击者持有的信息表进行连接查询,往往有很高的概率确定表T中的某些个体,那么这组属性即为准标识符。
3) 敏感属性(sensitive attributes,SA):数据表发布时,进行保密设置的属性,即一些用户比较敏感的信息。如薪水,疾病,电话等。
4) 等价类(QI-group)是指经过泛化处理后的表T,在准标识符属性上取值完全相同的记录的集合。
5) 对于准标识符,可以分为两类。其中一类是数值型,一般被泛化成区间。另一类是分类型,一般的做法是用一个更一般、更普通的值来替代。
下面参考[6]给出K-匿名模型的定义:
K-匿名(K-anonymity)给定正整数k,表T=([A1],[A2],[…],[An])以及它的准标符QI([Ai1],[Ai2],[…,][Aid]),如果对于任何一个元组t[∈]T在表中存在至少k-1条其他元组[t1]([Ai1],[Ai2],[…],[Aim])[=…]([Ai1],[Ai2],[…],[Aim]),那么该匿名化的数据表T满足k-匿名约束。
在判断一张经过匿名化后的数据表是否满足K-匿名时[14],一般可以通过划分等价类的方式来进行判断。所谓等价类(QI-group),是指除了其中的敏感属性(SA)外,各个准标识符(QI)的值完全相同。
2.2 [l]-diversity模型的介绍
由上面的介绍可知,经过泛化处理后的数据,仍然可能受到同质攻击以及背景知识攻击。2006年,Machanavajjhala提出了[l]-diversity模型[16,17],这种模型在k-匿名模型的基础上,增加了对敏感属性的约束,这种模型规定匿名化后的每个等价类中的敏感属性都必须包含[l]个不同的值。这种模型很好的解决了K匿名模型不能抵御同质攻击和背景知识攻击的缺陷。
下面根据[18]对[l]-diversity多样性模型的定义。
L-多样性([l]-diversity),给定正整数[l],以及数据表T,准标识符QI,和敏感属性[As],在满足k-匿名约束的同时,对于匿名化后的数据表T,其中的每个等价类(QI-group),设[s]是在[Gi]中出现最多的敏感属性S的值,[qs]是它所对应的元组集合,如果均有[qsG=1l],那么称表T满足[l]-多样性约
文档评论(0)