差别隐私保护及其.ppt

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
差别隐私保护及其

差别隐私保护及其应用 来自两篇KDD会议文章 KDD2011 Differentially Private Data Release for Data Mining KDD2010 Data Mining with Differential Privacy 敏感信息保护 问题提出与描述 敏感信息 私有性 敏感性 易暴露 例如:姓名、身份号、年龄等信息 敏感保护新问题 基于背景知识的隐私攻击 实例,87%的美国人身份可以通过5位压缩码(5-digit zip code)、性别和出生日期组成的属性集合唯一地被辨识。这个属性集合被称为准标识(Quasi-IDenti?er ,QID)。敌手可能通过一些公开的来源获得这些属性集合信息,比如公众投票表(a voter list)。通过简单地连接外部数据源中的QID属性集合,一个人的私有信息可能会被暴露。 目前的解决方法 匿名化算法 k-匿名的隐私保护模型(k-anonymity privacy model)[36, 37] ι-多样化(ι-diversity )[28] (a,k)匿名((α,k)-anonymity)[41] t-密闭(t-closeness)[26] (c,k)-安全((c,k)-safety)[29] 数据发布中的技术 泛化技术[36,37] 基于泛化技术的匿名算法[2,13,23,24,36]已经被提出来 新颖的隐私保护模型 差别隐私(Differential Privacy)[7] 差别隐私是一个新颖的隐私定义,可以提供强的隐私保护。 基于划分的隐私保护模型的输出数据需要保持k个记录是难以分辨的,或者敏感信息值都在每一个等价组中被很好地描述。 然而,差别隐私的保护可以保证敌手对于个体的知识一无所知,无论个人的记录在不在数据当中出现。 简言之,从一个个体的角度来看,输出的处理就像是对一个不包含个体个人记录的数据集进行计算一样。 差别隐私保护 定义 3.1 ε-差别隐私(ε-differential privacy) . 一个随机算法是差别隐私的当对于所有的数据集和来说,他们的对称的差别(symmetric difference)最多包含一个记录,对于所有的可能的匿名化数据集来说有 差别隐私保护 差别隐私保护的标准机制是通过向一个函数的真实输出中添加随机的噪音的方法完成的。 噪音通过函数的敏感度来调整。函数的敏感度是从两个只有一个记录不同的数据集中得到的输出的最大差别。 差别隐私保护-拉普拉斯机制 Dwork等人在文献[9]中提出了拉普拉斯机制 作用是确定添加噪音数据的大小 差别隐私保护-指数机制 McSherry and Talwar在文献[32]中提出了指数机制 作用是对效用函数计算的候选评分进行选择 越高的计分的输出与被选择输出指数倍地趋近 上述所说的定义与机制都已被证明,满足 ε-差别隐私 问题提出与描述 假设一个数据拥有者打算发布一个数据集给公众用于数据分析 问题提出与描述 对于一个数据集 和隐私参数 ,文中算法的目标是生成一个匿名数据集 ,使得(1) 满足 - differential privacy,同时(2)尽可能多的保留用于分类分析的信息。 算法描述 基于泛化技术的差别隐私匿名化算法(Differentially-private anonymization algorithm based on Generalization ,DiffGen) 算法描述 Line 1 起初, 在中的所有值都泛化成类别树中最高层的值 Line 2 中包含了每一个属性的值 Line 7 每一次DiffGen算法的迭代过程都要基于概率地选择一个在 中的候选 来进行下一次的细化过程 Line 8 算法细化选择的候选v,更新 Line 10 更新受影响的候选的评分以为下次细化过程所用 Line 12 把在拉布拉斯分布中选取噪音数据添加到按上述细化过程分类的组当中的统计计数中 实例 细化过程 关键步骤详析 候选选取 划分值选择 噪音数据添加 候选选取 选取候选哪个 进行细化 通过两个方法计算候选评分值 信息增益 最大匹配 候选选取-信息增益 有趣的物理学名词信息论应用-熵(entropy) 信息熵是指 对信息具体的量化度量问题。信息论之父 C. E. Shannon 第一次用数学语言阐明了概率与信息冗余度的关系。 自信息 离散信源X的概率空间为: [例] 8个串联的灯泡x1,x2,…,x8,损坏的可能性是等概的,现假设其中有一个灯泡已损坏,问每进行一次测量可获得多少信息量?总共需要多少次测量才能获知和确定哪个灯

文档评论(0)

haihang2017 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档