大数据隐私保护技术之脱敏技术剖析.docx

下载文档 降价啦

1
0
约 8页
2017-06-05 发布于湖北
举报
版权申诉
保障服务

大数据隐私保护技术之脱敏技术剖析.docx

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大数据隐私保护技术之脱敏技术剖析

大数据隐私保护技术之脱敏技术数据安全是信息安全的重要一环。当前，对数据安全的防护手段包括对称/非对称加密、数据脱敏、同态加密、访问控制、安全审计和备份恢复等。他们对数据的保护各自有各自的特点和作用，今天我主要说数据脱敏这一防护手段。作者：佚名来源：FreeBuf|2016-11-22 09:40?收藏??分享前言这几天学校开始选毕业设计，选到了数据脱敏系统设计的题目，在阅读了该方面的相关论文之后，感觉对大数据安全有了不少新的理解。介绍随着大数据时代的到来，大数据中蕴藏的巨大价值得以挖掘，同时也带来了隐私信息保护方面的难题，即如何在实现大数据高效共享的同时，保护敏感信息不被泄露。数据安全是信息安全的重要一环。当前，对数据安全的防护手段包括对称/非对称加密、数据脱敏、同态加密、访问控制、安全审计和备份恢复等。他们对数据的保护各自有各自的特点和作用，今天我主要说数据脱敏这一防护手段。许多组织在他们例行拷贝敏感数据或者常规生产数据到非生产环境中时会不经意的泄露信息。例如:1.大部分公司将生产数据拷贝到测试和开发环境中来允许系统管理员来测试升级，更新和修复。2.在商业上保持竞争力需要新的和改进后的功能。结果是应用程序的开发者需要一个环境仿真来测试新功能从而确保已经存在的功能没有被破坏。3.零售商将各个销售点的销售数据与市场调查员分享，从而分析顾客们的购物模式。4.药物或者医疗组织向调查员分享病人的数据来评估诊断效果和药物疗效。结果他们拷贝到非生产环境中的数据就变成了黑客们的目标，非常容易被窃取或者泄露，从而造成难以挽回的损失。数据脱敏就是对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下，在不违反系统规则条件下，对真实数据进行改造并提供测试使用，如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。数据脱敏系统设计的难点许多公司页考虑到了这种威胁并且马上着手来处理。简单的将敏感信息从非生产环境中移除看起来很容易，但是在很多方面还是很有挑战的。首先遇到的问题就是如何识别敏感数据，敏感数据的定义是什么?有哪些依赖?应用程序是十分复杂并且完整的。知道敏感信息在哪并且知道哪些数据参考了这些敏感数据是非常困难的。敏感信息字段的名称、敏感级别、字段类型、字段长度、赋值规范等内容在这一过程中明确，用于下面脱敏策略制定的依据。一旦敏感信息被确认，在保持应用程序完整性的同时进行脱敏的方法就是最重要的了。简单地修改数值可能会中断正在测试，开发或升级的应用程序。例如遮挡客户地址的一部分，可能会使应用程序变得不可用，开发或测试变得不可靠。脱敏的过程就是一个在安全性和可用性之间平衡的过程。安全性是0%的系统中，数据不需要进行脱敏，数据库中都是原来的数据，可用性当然是100%;安全性是100%的系统中，大概所有的数据全都存一个相同的常量才能实现。所以需要选择或设计一种既能满足第三方的要求，又能保证安全性的算法就变得特别重要了。选定了敏感数据和要施加的算法，剩下的就是如何实现了，在什么过程中进行脱敏呢?难题的解决方案1.如何识别敏感数据现在有两种方式来识别敏感数据。第一种是通过人工指定，比如通过正则来指定敏感数据的格式，Oracle公司开发的Oracle Data Masking Pack中就使用了这一种方法来指定。第二种方式就是自动识别了，在文献[2]中，作者给出了基于数据特征学习以及自然语言处理等技术进行敏感数据识别的自动识别方案(没有具体的实现,只提出了模型)。具体的实现在gayhub上找了一个java实现的工程，chlorine-finder，看了下源码具体原理是通过提前预置的规则来识别一些常见的敏感数据，比如信用卡号，SSN，手机号，电子邮箱，IP地址，住址等.2.使用怎样的数据脱敏算法在比较常见的数据脱敏系统中，算法的选择一般是通过手工指定，像Oracal的数据脱敏包中就预设了关于信用卡的数据选择什么算法进行处理，关于电话的数据怎么处理，用户也可以进行自定义的配置。脱敏方法现在有很多种，比如k-匿名，L多样性，数据抑制，数据扰动，差分隐私等。k-匿名：匿名化原则是为了解决链接攻击所造成的隐私泄露问题而提出的。链接攻击是这样的，一般企业因为某些原因公开的数据都会进行简单的处理，比如删除姓名这一列，但是如果攻击者通过对发布的数据和其他渠道获得的信息进行链接操作，就可以推理出隐私数据。k-匿名是数据发布时保护私有信息的一种重要方法。 k-匿名技术是1998 年由Samarati和Sweeney提出的 ,它要求发布的数据中存在至少为k的在准标识符上不可区分的记录,使攻击者不能判别出隐私信息所属的具体个体,从而保护了个人隐私, k-匿名通过参数k指定用户可承受的最大信息泄露风险。但容易遭受