隐私保护数据挖掘研究.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
隐私保护数据挖掘研究

隐私保护数据挖掘方法的研究 隐私保护数据挖掘方法的研究 研究背景 数据挖掘是近年来十分活跃的研究领域。数据挖掘即提取或挖掘知识。它是从数据中抽取隐含的、未知的和潜在有用的信息。 随着信息技术,特别是网络技术、数据存储技术和高性能处理器技术的飞速发展,海量数据的收集、管理和分析变得越来越方便,知识发现和数据挖掘更是在一些深层次的应用中发挥了积极的作用。但与此同时,也带来了隐私保护方面的诸多问题。比如在医学中,为了分析某种病的发病率,几家医院可能将自己拥有的数据综合起来进行分析,但是这可能涉及病人的隐私或是病人不愿意被别人知道所患的病症而不愿意共享数据。所以必须要采用某些技术手段来控制和预防在数据挖掘过程中隐私信息的泄露问题。所以,如何在数据挖掘过程中解决好隐私保护的问题,目前已经成为数据挖掘界的一个研究热点。 首先需要明确的是,可能泄露隐私的并不是数据挖掘技术本身,而是数据挖掘方法的特定应用和具体过程。数据挖掘有一个重要特征,就是从大量数据中挖掘出来的模式或者规则,通常是针对综合数据而非细节数据。那么,我们是否可以基于非精确的原始数据而抽取出精确的模式与规则?实现隐私数据的合理保护和基于统计数据的模式抽取两者兼得,正是隐私保护数据挖掘方法的出发点和最终目标。 相关知识 数据挖掘。简单的说,数据挖掘是指从大量数据中提取和挖掘知识。这和普通的挖掘不一样,这里的挖掘并不是挖掘存在的实体,比如挖掘矿石。这里的挖掘是指从数据中挖掘知识。就是未知的,潜在有用的信息。 数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知,有效和可实用三个特征。先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值.在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系。 数据挖掘可以发现的模式类型。 概念/类描述。特征化和区分; 挖掘频繁模式、关联和相关; 分类和预测; 聚类分析; 离群点分析; 演变分析; 隐私。 简单地说,隐私就是个人、 机构等实体不愿意被外部世界知晓的信息。在具体应用中,隐私即为数据所有者不愿意被披露的敏感信息,包括敏感数据以及数据所表征的特性。通常我们所说的隐私都指敏感数据,如个人的薪资、病人的患病记录、公司的财务信息等。但当针对不同的数据以及数据所有者时,隐私的定义也会存在差别的。例如保守的病人会视疾病信息为隐私,而开放的病人却不视之为隐私。 一般地,从隐私所有者的角度而言,隐私可以分为两类: 个人隐私( individual privacy ):任何可以确认特定个人或与可确认的个人相关,但个人不愿被暴露的信息,都叫做个人隐私,如身份证号、就诊 记录等。 共同隐私( corporate privacy) :共同隐私不仅包含个人的隐私,还包含所有个人共同表现出但不愿被暴露的信息。如公司员工的平均薪资、薪资分布等信息。 隐私保护数据挖掘主要研究方向及研究现状 3.1 隐私保护数据挖掘的主要研究方向 隐私保护在数据挖掘领域的应用主要可分为3个方向: 在关联挖掘规则挖掘 分类挖掘 聚类挖掘 3.2 研究现状 下面就上述三个方向的研究现状进行概述。 在关联规则挖掘方面。目前主要有两种方法。 隐藏频繁项目集。实际上就是对原始数据进行隐私保护处理来防止涉及隐私及相关的重要信息的关联规则的产生。 尽可能使涉及隐私规则或信息的置信度远远小于规定的最低置信度。 数据集中分布的隐私保护分类挖掘。主要有两种方法。 使用随机响应方法。 添加随机偏移量的方法。 聚类挖掘算法方面。主要通过几何转换等对原始数据进行转化,从而达到保护原始数据的效果。 隐私数据挖掘方法的研究 4.1隐私保护数据挖掘的分类 目前隐私保护的数据挖掘方法按照基本策略主要有数据扰乱法、查询限制法和混合策略。 数据扰乱法。数据干扰法是对数据进行随机变换、数据离散化和在数据中添加噪声,从而对原始数据进行干扰,然后再针对经过干扰的数据进行挖掘,得到所需的模式和规则。数据扰乱法的代表算法是 MASK(Mining Association with Secrecy Konstraints)算法。 查询限制的策略。查询限制策略是通过数据隐藏、数据抽样和数据划分等方式,从而尽量限制数据挖掘者拥有完整的原始数据,再利用概率统计的方法或者分布式计算这些数学方法来得到所需要的挖掘结果。 但是这两种策略本身都存在着一些固有的缺陷。在采用数据干扰策略的方法中,所有经过干扰的数据均与真实的原始数据相关,而且若数据缺损严重,数据的实用

文档评论(0)

peain + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档