K匿名隐私保护相关技术研究.docVIP

下载本文档

13
0
约6.66千字
约 14页
2018-08-11 发布于福建
举报
版权申诉

K匿名隐私保护相关技术研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

K匿名隐私保护相关技术研究

K匿名隐私保护相关技术研究　　【摘要】在数据发布领域，k-匿名技术是一种简单有效的隐私数据保护技术。因此国内外专家学者们对匿名化技术开展了广泛深入的研究工作以寻求防止或减少隐私泄露的有效方法。本文根据已有的一些研究结论，阐述了匿名化技术的一般概念、匿名化原则、匿名化方法和匿名化度量等方面，并且介绍了两种经典的匿名化算法。　　【关键词】数据发布；匿名化技术；k-匿名　　　　 1.引言　　计算机处理能力、存储技术及网络技术的快速发展，信息技术在组织中发挥的作用日益增加，一方面，使得信息共享较之以前来得更为容易和方便，以数据库为基础的应用系统成为经济、金融、医疗等领域的信息基础设施，大大地提高了组织的信息化程度；但是另一方面，这也使得数据库系统面对更多的安全威胁，随之产生的隐私信息泄露现象屡见不鲜，越来越多的因故意或疏忽造成的数据泄露的例子，使人们对数据库中的隐私保护问题日益重视。信息化过程中如何在实现有效的信息共享的同时，有效地保护私有敏感信息不被泄漏，已成为信息安全领域一个活跃的研究方向。Cox在1980年最先提出使用匿名的方法实现隐私保护，1986年Dalenius在针对人口普查记录集的隐私保护应用了匿名技术。自从匿名化概念提出以来，很多国内外的学者对匿名化技术开展了广泛的研究。例如L.Sweeney提出了一种用来保护私有信息的k-匿名模型[1]。Ji-Won Byun，Ashish Kamra，Elisa Bertino，and Ninghui Li在2007年提出了基于聚类的高效k-匿名话算法[2]。在这篇文章中提出，k-匿名问题不需要有簇的数量的限制，但是每个簇中至少含有k条记录，所以，提出可以把k-匿名问题当作聚类问题，被称为k-member clustering problem。现在生活中，人们都很注重隐私保护，尤其像是在医院和银行这种场合，大多数人可能并不愿意让别人知道自己的具体情况，所以怎样既可以做到不泄漏个人的隐私，又可以利用医院和银行中的个人信息做科学研究，这种问题正是我们研究匿名发布信息的重要意义所在。　　下面文章将在第2部分介绍数据发布和匿名发布的相关概念及定义，第3部分介绍常见的匿名算法，第4部分小结。　　 2.相关概念，相关定义　　 2.1 匿名技术[3] 　　匿名技术：是身份隐藏中最直接的技术。它作为隐私保护的数据挖掘技术不对数据挖掘结果进行保护，也不将原始数据进行隐藏伪装，而是公布带隐私的所有数据，但是他人拿到隐私数据却不能推导出该数据拥有者的身份。　　 2.2 匿名发布技术相关定义[4] 　　定义1：属性　　令：B(A1，…，An)是一个有限数量元组的一个表，B的有限元属性元组是{A1，…，An}。　　假设表B(A1，…，An)，{Ai，…，Aj}{A1，…，An}，有一个元组t∈B，用t[Ai，…，Aj]来表示t中Ai，…，Aj的值vi，…，vj的有序序列。用B[Ai，…，Aj]来表示投影，维持B中属性Ai，…Aj的元组复制。　　定义2：类标识符　　假设一个实体集U，一个特定的实体表T(A1，…，An)，fc:U→T以及fg:T→U，其中UU’.T的一个类标识符记为QT，是一组属性{Ai，…，Aj}{A1，…，An}其中:pi∈U所以fg(fc(pi)[QT])=pi.成立。　　定义3：k-匿名　　 RT(A1，...，An)是一个表QIRT是与RT有关联的类标识符，并且仅当在RT[QIRT]中出现的每一个有序的值至少要在RT[QIRT]中出现k次的话，就说RT满足k-匿名。　　推论：　　假设RT(A1，...，An)为一个表，QIRT=(A1，...，An)是与RT相关联的类标识符，Ai，...，AjA1，…，An，RT满足k-匿名，那么在RT[Ax]中出现的每一个值的有序序列至少要在RT[QIRT]中出现k次，x=i，...，j。　　 2.3 信息发布度量相关定义　　 2.3.1 k-匿名问题转换成聚类问题[2] 　　定义1：k-member clustering problem 　　 k-member clustering problem需要从给出的n条记录中寻找一组簇，每个簇中至少含有k(kn)条数据记录，并且簇内的距离之和最小。S代表n条记录，k代表特定的匿名参数，所以k-聚类问题可以表示为一组簇ε=｛e1，...，em｝定义为：　　 1) 　　 2) 　　 3) 　　 4) 　　 |e|表示簇e的大小，表示在第i个数据项，Δ(x，y)表示数据x和y的距离。　　 2.3.2 距离函数　　每个聚类问题的核心是用距离函数处理各个数据点的不同和使成本函数在聚类