基于隐私保护的经济统计信息发布.docVIP

下载本文档

1
0
约2.1千字
约 5页
2017-05-13 发布于湖北
举报
版权申诉

基于隐私保护的经济统计信息发布.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于隐私保护的经济统计信息发布

基于隐私保护的经济统计信息发布基于隐私保护的经济统计信息发布　　1 引言　　21世纪以来，随着信息技术的进步和互联网的广泛应用，信息共享已成为人们日常工作、生活和学习中的普遍行为。政府部门、社会团体和个人的统计信息大量涌现，信息数据收集的种类和数量呈指数级增长。与此同时，国家和有关部门制定了有关信息安全的法规及相关制度，舆论媒体对统计数据的关注度和要求也越来越高，但有关国民经济的各种统计数据因存在虚假和泄露隐私受到质疑的情况却时有发生。大量的隐私数据发布和共享已经对隐私和信息安全构成威胁，隐私数据的泄露已成为急待解决的问题[1]。如何保证隐私数据在发布或使用时不被对应到特定人和特定部门已成为一个研究热点。　　统计信息通过分析统计数据得到，统计数据按属性可分为4类：能直接识别个体身份信息的显式标志符（EiD），如身份证号、姓名、社会保险代码等；有助识别个体信息身份的准标志符（QID），如一些组合属性；敏感属性（SA），即隐私信息；非敏感属性（NSA），即非上述3类的其他属性。本文所述的本文由论文联盟http://www.LWlM.cOm收集整理隐私保护主要是指对统计数据中个人敏感信息的安全保护，是防止不法分子对个人敏感信息非法窃取的私有信息保护[2]。隐私攻击者除了能访问发布的统计数据表外，还可能通过文献资料、技术文档等获得发布的统计数据表中所采用的隐私模型和实现算法等。我们假定攻击者可能获得的数据信息统称为背景知识。通常攻击者都是从背景知识中获得目标对象的QID属性（如出生日期、性别、出生地、邮政编码等）。　　用户对经济统计数据的第一要求是查询结果必须准确。从这个前提出发，本文提出一种基于交互的序列表发布模型，它能保证敏感信息不泄露，同时又能最大程度地减少统计数据的信息损失，提高统计数据的效用。实验结果表明，该模型对于大数据集的隐私能很好地进行保护，而且丢失的重要信息少，能够满足统计数据发布的需要。　　2 隐私保护模型　　为了解决隐私保护问题，国内外研究者提出了很多方法，这些方法主要有：匿名保护。为了保护个人信息，在数据发布时，对能够直接标识个人身份的标识符进行删除或加密。扰乱、随机化数据技术。通过对数据的随机化处理，增加数据噪声，使得数据不再反映真实的世界，从而无法被滥用而侵犯个人隐私。当然，关键的技术是要从处理后的数据中获得有效的分析结果。分布式的隐私保护技术。双方或多方进行数据分析挖掘时，由于某种原因，参与者不愿将数据与他人共享而只愿共享数据分析挖掘结果。这需要运用密码学技术来解决实际的隐私问题。如安全两方或多方计算问题等。 k-匿名技术。它要求在公布后的数据中保留一定数量的个体特征，从而防止匿名处理后的数据被链接攻击，造成个人隐私泄露。　　研究者们根据隐私保护方法建立了很多隐私信息保护发布模型，如k-匿名模型[3]、L-多样性模型[4]、t-closness框架[5]和个性化匿名模型[6]等。这些隐私保护模型都是针对可能存在隐私泄露建立的。　　3 基于统计应用的交互序列发布模型及算法　　3.1 序列发布模型　　隐私保护模型实际是利用好的数据发布方法来保护隐私，使用最多的算法是泛化或有损连接（降低QID和SA两者之间的联系）[7]。在一些统计分析中，需要进行联合查询，用户对统计数据进行查询最重要的要求是查询结果准确，这样发布的数据才有较高的应用价值。而匿名化技术将发布的数据表中涉及个体的标志属性删除了，因此降低了QID属性和SA之间的联系，无法得到用户关心的准确查询结果。在对应用查询的实际需求和大量实际数据集的QID属性的统计中发现，应用查询中所涉及的QID属性数目一般只有3个左右，而原始数据集中一般都存在大量满足匿名要求的数据记录，且所占比例跟QID的数目存在密切的关系。例如一个人口统计的实际数据集共有14 种属性，记录约4万条，其中QID的全部组合数目为9。在k-匿名模型中，当k = 20，QID数目为3时，其平均满足k-匿名的记录比例可高达85%，而QID数目为全部组合时满足k-匿名的记录比例只有5%左右；当k = 2，QID数目为全部组合时，满足k-匿名的记录比例只有40%左右。由此可见，如果将所有的QID属性捆绑在一起进行匿名，必然会导致大量记录的QID属性和SA被割断。　　本文提出一种基于用户应用查询的序列发布模型，将满足k-匿名的记录按照QID数目由高到低分成一组序列表进行发布。首先发布属性包含了全部QID组合和SA的记录，然后将QID数减少一个，发布属性包含QID组合和SA的剩余记录。如此类推，直到最后QID的数目减少为3，再将这些剩余记录按照属性为3个QID和SA泛化发布，从而提高泛化表的查准率。