面向分类研究的数据发布隐私保护方法的分析.pdf

下载文档 降价啦

4
0
约 54页
2016-01-05 发布于安徽
举报
版权申诉
保障服务

面向分类研究的数据发布隐私保护方法的分析.pdf

1、本文档共54页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

一㈣Y2㈣665 7帮76 面向分类分析的数据发布隐私保护方法研究摘要随着各行各业对数据共享的迫切需求，数据发布隐私保护技术取得了长足的发展。数据挖掘分类分析工作需要大量的数据支持，如何对发布的数据成功进行分类分析的同时保护隐私数据不被泄露成为了一个重要的问题。近年来，数据发布隐私保护技术的研究成为数据库领域的研究热点，尼匿名模型是实现数据发布隐私保护的重要思想，然而现有的露匿名实现技术没有考虑匿名数据的具体应用情况，针对具体应用改进数据匿名化过程，从而得到面向该应用高质量的匿名数据，是一项非常有意义的工作。通过对数据挖掘分类技术和隐私模型相结合的研究，本文提出了面向数据挖掘分类分析技术来进行匿名化数据，不再要求匿名化过程造成数据信息损失量最小，而是要求匿名化过程对数据在挖掘分类中的影响尽可能的小，通过考虑各个属性在分类中的作用，提出属性的权重思想，即不同的属性在数据挖掘分类中表现的重要度可能不同，根据不同的属性在分类过程中的表现，定义不同的属性权重，从而在匿名化过程中进行不同程度的泛化。最近，面向分类分析技术的七匿名研究得到重视，很多的改进型七匿名算法被提出，能够实现在满足隐私要求的同时保持匿名数据在挖掘分类中的可用性。本文从数据可用性和安全性两个方面综合考虑，对微数据发布隐私保护技术进行研究，具体工作点如下： (1)通过对数据挖掘分类分析方法的研究，提出了基于属性权重的匿名化方法。该方法考虑到不同属性在分类挖掘中所发挥的作用不同，所以在数据匿名化过程中，对分类分析重要的属性进行较弱泛化，而对分类分析不重要的属性进行较强泛化，并采用了信息增益比率作为度量来控制泛化程度，从而可以得到对分类挖掘分类可用性更好的匿名化数据。基于该思想改进了Bottom-Up算法，实验证明，改进后的Bottom．Up方法能够得到可用且安全的匿名数据。万方数据 (2)提出了一种面向分类分析的匿名模型，即首先用信息增益比率确定最优泛化层次，然后把每一个属性都泛化到相应的层次。同时，定义了一种抑制策略来处理还没有满足隐私约束的等价类元组。在本文中，基于以上思想提出了一种加权全域泛化算法(wFDG)。实验结果也证明了所提出的方法能够得到高质量的隐私数据。关键词：分类：数据挖掘；信息增益；信息增益比率；数据扰动；隐私数据；k匿名 11 万方数据 TheResearchon Data forData publishing Privacy-preserving Classification Analysis ABSTRACT With demandsfordata Data has urgent sharing，Privacy-preservingPublishing made we needsalotofdatato great know,data progresses．As mining support，and the ofdata isthed