面向分类分析的数据发布隐私保护方法的研究.pdf

面向分类分析的数据发布隐私保护方法的研究.pdf

THE RESEARCHoN DATA PUBLISHINGFoRDATA CLASSIFICATIoNANALYSIS ThesisSubmittedto Normal ZhejiangUniversity in fulfillmentofthe partial requirement forthe of degree Masterof Engineering By Wu Jiandang Softwareand (Computer Theory) Thesis Supervisor:Jiyi Wang 16,2014 May 万方数据 一㈣Y2㈣665 7帮76 面向分类分析的数据发布隐私保护方法研究 摘要 随着各行各业对数据共享的迫切需求,数据发布隐私保护技术取得了长足的 发展。数据挖掘分类分析工作需要大量的数据支持,如何对发布的数据成功进行 分类分析的同时保护隐私数据不被泄露成为了一个重要的问题。近年来,数据发 布隐私保护技术的研究成为数据库领域的研究热点,尼匿名模型是实现数据发布 隐私保护的重要思想,然而现有的露匿名实现技术没有考虑匿名数据的具体应用 情况,针对具体应用改进数据匿名化过程,从而得到面向该应用高质量的匿名数 据,是一项非常有意义的工作。 通过对数据挖掘分类技术和隐私模型相结合的研究,本文提出了面向数据挖 掘分类分析技术来进行匿名化数据,不再要求匿名化过程造成数据信息损失量最 小,而是要求匿名化过程对数据在挖掘分类中的影响尽可能的小,通过考虑各个 属性在分类中的作用,提出属性的权重思想,即不同的属性在数据挖掘分类中表 现的重要度可能不同,根据不同的属性在分类过程中的表现,定义不同的属性权 重,从而在匿名化过程中进行不同程度的泛化。最近,面向分类分析技术的七匿 名研究得到重视,很多的改进型七匿名算法被提出,能够实现在满足隐私要求的 同时保持匿名数据在挖掘分类中的可用性。 本文从数据可用性和安全性两个方面综合考虑,对微数据发布隐私保护技术 进行研究,具体工作点如下: (1)通过对数据挖掘分类分析方法的研究,提出了基于属性权重的匿名化 方法。该方法考虑到不同属性在分类挖掘中所发挥的作用不同,所以在数据匿名 化过程中,对分类分析重要的属性进行较弱泛化,而对分类分析不重要的属性进 行较强泛化,并采用了信息增益比率作为度量来控制泛化程度,从而可以得到对 分类挖掘分类可用性更好的匿名化数

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档