大数据环境下的隐私保护问题评估分析.docVIP

大数据环境下的隐私保护问题评估分析.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大数据环境下的隐私保护问题评估分析 白萍夏辉杜庆东 沈阳师范大学科信软件学院 摘要: 人类已步入大数据时代,大数据时代下的商业价值较高,通过实现对大数据的 挖掘及分析,能够得到具有较高经济利益及价值的数据。在大数据技术不断进步 的过程屮,企业能够在个人不知情或者无法控制的情况下对个人数据进行收集 及分析并且使用。在没有通过用户允许的情况下获得个人数据的行为对个人隐私 进行了侵犯,所以目前人们在大数据环境下对于个人的隐私保护问题越来越担 心,隐私问题也得到了人们的广泛关注,国内外的企业及政府在隐私保护方面 也进行了全新的研宄及尝试。在此背景下,该文就对大数据中的隐私保护问题进 行全面的研宄。 关键词: 大数据;隐私保护;评仍; 作者简介:白萍(1977一),女,辽宁沈阳人,沈阳师范大学讲师,硕士。 收稿日期:2017-07-18 基金:辽宁省自然科学基金资助项目(2014020118) Received: 2017-07-18 在网络技术和通信技术不断成熟,并且网络通信带宽不断增加的过程中,大量 的客户信息、医疗信息、交易信息等和个人隐私相关的信息都通过电子化的方式 进行存储及管理,以此成为了大数据系统,现代相应学术界对于大数据的分析 使用及深入挖掘的研究,并且得到了一定的研宂成果。但是因为大数据分析及整 合使用的研宄使大数据问题被人们所重视,尤其是个人数据隐私保护问题,其 是大数据研宄过程中的重点内容。比如数据库服务层的安全隐私保护与数据完整 性、机密性方面问题,隐私保护查询和访问控制问题等。在此背景下,隐私保护 数据挖掘也成了全新的研究方向,人们也逐渐提出了全新的隐私保护数据挖掘 的方法。现代大部分的隐私保护数据挖掘都是在分布式环境屮使用,但是还是存 在保护程度较低、计算量较大及通信造价较高的问题。那么本文就面向分布式情 况下,研究隐私数据的挖掘及保护。 1隐私保护数据挖掘的方法 在数据挖掘技术不断发展的过程中,其中的隐私问题也备受人们的关注,隐私 泄露会导致个人人身及财产安全出现威胁,那么如何保证数据挖掘的精准度, 并且对数据敏感信息进行有效保护是现代研宄人员需要考虑的问题,其主要目 的是使用某项技术对原始数据进行修改和加密,导致数据在通过挖掘之后不会 被泄露[1],其主要方式包括: 其一,数据分布。根据数据分布的方式将隐私数据保护技术分为集中式及分布式 两种,集中式数据是指所有的数据都在一个站点中集中。分布式又分为水平及垂 直两种划分方式,水平划分指的是数据在多站点中,不同站点括部分属性的 记录。垂直划分指的是数据在多站点中,不同站点记录所有属性。 其二,数据修改。数据修改指的是将原來的原始数据的值进行修改,主要包括扰 动、取样、阻塞、聚合及交换。 其三,数据挖掘算法。主要包括分类、聚类、关联规则挖掘及决策树,是通过不 同数据挖掘算法进行分类。 其四,隐私保护。主要包括基于重建、基于加密及基于启发式三种技术。 其五,隐私保护对象。即对敏感的规则及数据进行隐藏m。 阁1为敏感数据的隐藏模型。目前使用较多的技术为敏感数据隐藏、数据扰动技 术和安全计算等,数据扰动技术是在数据公布之前对其进行改变,从而使其伪 装成敏感数据,并且将其中的属性进行部分保留,其主要目的是攻击人员无法 得到敏感信息,从而有效提高数据挖掘结果和原始数据结果的精准度DL 图1敏感数据隐藏模型 下载原图 2分布式数据挖掘 在计算技术及通信技术不断发展及进步的过程屮,数据的数量也在不断地增长, 但是大部分数据都是在不同场所进行存储,以此提高了分布式存储数据对数据 模型寻找的需求,分布式数据挖掘指的是对不同场所的数据进行挖掘。在分布式 数据挖掘中,各方都贡献自己的数据,从而能够通过合并数据对模型进行完善。 为了能够得到全面的数据模型,那么要求分布式数据挖掘对不同区域中的问题 进行解决Ill。 在数据挖掘中,能够根据数据分布将其分为集中式和分布式,分布式数据挖掘 就是在分布式数据环境中使用的技术,是数据挖掘方面的主要内容,分为水平 及垂直两种分布方式,其中的数据表集合为全局数据表。参与方在分布式数据挖 掘中要求自身数据不被共享,因为暴露数据就表示隐私被暴露,自身利益会受 到威胁。所以传统集中式的隐私保护挖掘在分布式环境中已经不使用,被现代面 向分布式的数据挖掘隐私保护替代,其主要优点为:其数据拥有者较多,能够通 过消总实现信总传递;站点资源受到限制;数据存在敏感信总。在分布式数据挖掘 屮的衡量指标为通信量,部分面向分布式的隐私保护都要降低通信次数,在分 布式环境中将站点信息传送到其他站点,比如直接传输、网络传输等m。 3面向Hadoop的数据挖掘平台 3.1数据挖掘的步骤 数据挖掘会在不同领域中展现出不同的流程,不同数据挖掘技术的特性及使用 步骤都各不相同,从而

文档评论(0)

ggkkppp + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档