- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
隐私保护数据挖掘研究 .doc
隐私保护数据挖掘研究
隐私保护数据挖掘方法的
研究
隐私保护数据挖掘方法的研究
1. 研究背景
数据挖掘是近年来十分活跃的研究领域。数据挖掘即提取或挖掘知识。它是从数据中抽取隐含的、未知的和潜在有用的信息。
随着信息技术,特别是网络技术、数据存储技术和高性能处理器技术的飞速发展,海量数据的收集、管理和分析变得越来越方便,知识发现和数据挖掘更是在一些深层次的应用中发挥了积极的作用。但与此同时,也带来了隐私保护方面的诸多问题。比如在医学中,为了分析某种病的发病率,几家医院可能将自己拥有的数据综合起来进行分析,但是这可能涉及病人的隐私或是病人不愿意被别人知道所患的病症而不愿意共享数据。所以必须要采用某些技术手段来控制和预防在数据挖掘过程中隐私信息的泄露问题。所以,如何在数据挖掘过程中解决好隐私保护的问题,目前已经成为数据挖掘界的一个研究热点。
首先需要明确的是,可能泄露隐私的并不是数据挖掘技术本身,而是数据挖掘方法的特定应用和具体过程。数据挖掘有一个重要特征,就是从大量数据中挖掘出来的模式或者规则,通常是针对综合数据而非细节数据。那么,我们是否可以基于非精确的原始数据而抽取出精确的模式与规则?实现隐私数据的合理保护和基于统计数据的模式抽取两者兼得,正是隐私保护数据挖掘方法的出发点和最终目标。
2. 相关知识
(1) 数据挖掘。简单的说,数据挖掘是指从大量数据中提取和挖掘知识。这和普通的挖掘不一样,这里的挖掘并不是挖掘存在的实体,比如挖掘矿石。这里的挖掘是指从数据中挖掘知识。就是未知的,潜在有用的信息。 数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知,有效和可实用三个特征。先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值.在商业应用中最典型的例子就是一家连锁店通过数据挖掘发现了小孩尿布和啤酒之间有着惊人的联系。
(2) 数据挖掘可以发现的模式类型。
i) 概念/类描述。特征化和区分;
ii) 挖掘频繁模式、关联和相关;
iii) 分类和预测;
iv) 聚类分析;
v) 离群点分析;
vi) 演变分析;
(3) 隐私。
简单地说,隐私就是个人、 机构等实体不愿意被外部世界知晓的信息。在具体应用中,隐私即为数据所有者不愿意被披露的敏感信息,包括敏感数
据以及数据所表征的特性。通常我们所说的隐私都指敏感数据,如个人的薪资、病人的患病记录、公司的财务信息等。但当针对不同的数据以及数据所有者时,隐私的定义也会存在差别的。例如保守的病人会视疾病信息为隐私,而开放的病人却不视之为隐私。 一般地,从隐私所有者的角度而言,隐私可以分为两类:
i) 个人隐私( individual privacy ):任何可以确认特定个人或与可确认的个人
相关,但个人不愿被暴露的信息,都叫做个人隐私,如身份证号、就诊 记录等。
ii) 共同隐私( corporate privacy) :共同隐私不仅包含个人的隐私,还包含所有
个人共同表现出但不愿被暴露的信息。如公司员工的平均薪资、薪资分布等信息。
3. 隐私保护数据挖掘主要研究方向及研究现状
3.1 隐私保护数据挖掘的主要研究方向
隐私保护在数据挖掘领域的应用主要可分为3个方向:
i) 在关联挖掘规则挖掘
ii) 分类挖掘
iii) 聚类挖掘
3.2 研究现状
下面就上述三个方向的研究现状进行概述。
i) 在关联规则挖掘方面。目前主要有两种方法。
a) 隐藏频繁项目集。实际上就是对原始数据进行隐私保护处理来防止
涉及隐私及相关的重要信息的关联规则的产生。
b) 尽可能使涉及隐私规则或信息的置信度远远小于规定的最低置信
度。
ii) 数据集中分布的隐私保护分类挖掘。主要有两种方法。
a) 使用随机响应方法。
b) 添加随机偏移量的方法。
iii) 聚类挖掘算法方面。主要通过几何转换等对原始数据进行转化,从而达
到保护原始数据的效果。
4. 隐私数据挖掘方法的研究
4.1隐私保护数据挖掘的分类
目前隐私保护的数据挖掘方法按照基本策略主要有数据扰乱法、查询限制法和混合策略。
i) 数据扰乱法。数据干扰法是对数据进行随机变换、数据离散化和在数据
中添加噪声,从而对原始数据进行干扰,然后再针对经过干扰的数据进
行挖掘,得到所需的模式和规则。数据扰乱法的代表算法是 MASK(Mining Association with Secrecy Konstraints)算法。
ii) 查询限制的策略。查询限制策略是通过数据隐藏、数据抽样和数据划分
等方式,从而尽量限制数据挖掘者拥有完整的原始数据,再利用概率统计的
您可能关注的文档
- 酒精车间5S管理内容000.doc
- 酷派7360手机软件程序升级指导.doc.doc
- 重庆交通大学雅园小区社团联合会学生社团发展经验交流会策划书.doc
- 重庆某房地产企业工作计划(绩效)考核方案--(实战型,超值,无法用金钱衡量).doc
- 重庆洪崖洞民俗风貌区招商说明书.doc
- 重庆社保卡医保卡余额信息查询方法!175.doc
- 重庆美女坦肩露腿很低碳!(组图) .doc
- 量具内校规程管理.doc
- 金凤 蒋文可主编《军事理论》 课后思考题参考答案.doc
- 金地销售手册_secret.doc
- 浙江衢州市卫生健康委员会衢州市直公立医院高层次紧缺人才招聘11人笔试模拟试题参考答案详解.docx
- 浙江温州泰顺县退役军人事务局招聘编外工作人员笔试备考题库及参考答案详解一套.docx
- 江苏靖江市数据局公开招聘编外工作人员笔试模拟试题及参考答案详解.docx
- 广东茂名市公安局电白分局招聘警务辅助人员40人笔试模拟试题带答案详解.docx
- 江苏盐城市大丰区住房和城乡建设局招聘劳务派遣工作人员4人笔试模拟试题带答案详解.docx
- 浙江舟山岱山县东沙镇人民政府招聘笔试模拟试题及参考答案详解1套.docx
- 最高人民检察院直属事业单位2025年度公开招聘工作人员笔试模拟试题含答案详解.docx
- 浙江金华市委宣传部、中共金华市委网信办所属事业单位选调工作人员笔试备考题库及答案详解1套.docx
- 广东深圳市党建组织员招聘40人笔试模拟试题及答案详解1套.docx
- 江苏南京水利科学研究院招聘非在编工作人员4人笔试模拟试题及参考答案详解.docx
最近下载
- 《中国结核病预防控制工作技术规范(2020年版)》.PDF VIP
- 2023年北京市中考英语真题(含答案) .pdf VIP
- 南通大学2023-2024学年《病理学》期末考试试卷(A卷)附参考答案.docx
- 胸部损伤-教学课件.ppt VIP
- 某银行数据中心搬迁整体实施方案.pdf VIP
- 麦肯锡中国银行业CEO季刊(2020年秋)-麦肯锡-224页正式版.pdf VIP
- 国家公务员录用考试体检标准.doc VIP
- 入党申请书时事政治精选五篇.docx VIP
- 农村公路安全生命防护工程监理规划49943.doc VIP
- 高中英语3500词【打印版】乱序版3500词汇(带音标120页).pdf VIP
文档评论(0)