基于差分隐私的频繁项集挖掘研究综述.docVIP

下载本文档

23
0
约5.81千字
约 4页
2016-07-03 发布于河北
举报
版权申诉

基于差分隐私的频繁项集挖掘研究综述.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于差分隐私的频繁项集挖掘研究综述

基于差分隐私的频繁项集挖掘研究综述　　摘要频繁项集及其真实支持度都可能泄露数据集中的隐私信息。最近提出的差分隐私保护模型比传统隐私保护模型隐私保护效果更好。首先，介绍了差分隐私保护模型的基本理论。其次，介绍了差分隐私下的几种频繁项集挖掘算法，分析了各个算法的优缺点。最后展望了未来的研究方向。　　【关键词】差分隐私隐私保护频繁项集挖掘　　频繁项集挖掘是关联规则的基础。但频繁项集及其支持度都可能数据的隐私信息。因此需进行隐私保护。传统的隐私保护模型一般需特殊的攻击假设，随新攻击的出现不断改进和完善，无法提供及时有效的安全保障。其安全性与攻击者拥有的背景知识（背景知识是指除隐私保护对象之外的所有其他与隐私保护模型相关的信息，包括其他对象的信息、隐私保护模型和实现算法等）的多少相关。且不能对隐私保护水平进行严格的证明和定量分析。　　因此，一个与背景知识无关的隐私保护模型才可能抵御任意形式的攻击。差分隐私定义了严格的攻击模型，其理论建立在严格的数学基础上，隐私保护水平能定量分析。能在攻击者拥有任意背景知识的情况下抵御攻击。本文阐述了差分隐私的基本理论和差分隐私下的几种频繁项集挖掘方法，并分析了各个方法的优缺点。　　1 差分隐私　　差分隐私是一种强健的隐私保护模型。基本思想是对原始数据转换或对统计结果添加噪音达到隐私保护效果。即使攻击者已获得除一条记录之外的所有其他数据的敏感信息，这条记录的隐私信息仍能得到保护。　　定义1.相邻数据集。设数据集D1，D2属性结构相同，且或，两者记录相差的条数记为。当时，称D1，D2为相邻数据集。　　定义2.差分隐私。设隐私算法M输出域为，表示E发生的概率，ε为隐私保护预算。若M在任意相邻数据集D1，D2上的任意输出结果满足不等式，则M满足ε-差分隐私。　　差分隐私限制了任一记录对M输出结果的影响，在数据集中删除或添加一条记录时，M输出同一结果的概率无明显变化，限制在eε之内。噪音机制是差分隐私中的重要技术。若加入噪音过多会影响结果的可用性，加入噪音过少不能提供足够的安全保障，用敏感度和隐私保护预算来决定加入噪音的大小。敏感度分为全局敏感度和局部敏感度。　　定义3.全局敏感度。设函数，D表示数据集，表示d维实数向量。D1，D2为任意相邻数据集，则与之间的最大差异称为函数q的全局敏感度。一般用度量全局敏感度。　　是之间的1-阶范数距离。q的全局敏感度由q本身特性决定，与数据集无关。全局敏感度小，加入少量噪音即可实现隐私保护。全局敏感度大，须添加足够大的噪音才能保证隐私安全，结果可用性较差。为此，提出了局部敏感度这一概念。　　定义4.局部敏感度。设函数，D表示数据集，表示d维实数向量。对给定的数据集D1及其任意相邻数据集D2，之间的最大差异称为函数q在D1的局部敏感度。一般用度量局部敏感度。q的局部敏感度由q及D1中的数据共同决定。　　局部敏感度通常很小，但反应了数据的分布特征，若直接用来添加噪音可能泄露数据集的敏感信息，因此，提出了平滑上界这一概念。　　定义5.平滑上界。给定数据集D1及任意相邻数据集D2，函数q的局部敏感度为。若函数满足：且则称S为q的局部敏感度的β―平滑上界。　　定义6.平滑敏感度。给定数据集，函数称为函数q的β―平滑敏感度。　　位置参数，尺度参数的拉普拉斯分布记为。　　定理1.拉普拉斯机制。设函数，D表示数据集，表示d维实数向量。q的全局敏感度为，若算法M满足，则M满足ε-差分隐私。是相互独立的拉普拉斯变量。　　拉普拉斯机制适用于数值型结果，而指数机制适用于非数值型结果。　　定理2.指数机制。给定打分函数，全局敏感度为。若算法M满足　　，则M满足ε-差分隐私。　　性质1.序列组合性质。设有差分隐私算法，隐私保护预算分别为。D为数据集，则算法满足　　差分隐私。　　性质2.并行组合性质。设有差分隐私算法，隐私保护预算分别为。为不相交的数据集，组合算法满足-差分隐私。　　差分隐私算法需在保护隐私的同时兼顾结果的可用性与隐私保护预算ε的合理分配。从3方面对算法进行度量。　　（1）算法误差。包括相对误差、绝对误差和误差方差等。　　（2）常用度量算法可用性。设M为差分隐私算法，给定一个操作Q及数据集D，对于，若成立，则M满足。　　（3）ε的合理分配。复杂的隐私保护问题需多次应用差分隐私才能解决。为了保证隐私保护水平在ε之内，需把ε合理分配到算法各个步骤中去。常用的分配策略包括均匀分配、线性分配和指数分配等。　　2 差分隐私下的频繁项集挖掘方法　　差分隐私频繁项集挖掘算法主要包括TF、PrivBasis、DP-topk、Smart Trunc和DiffPart等。假设D为数据集，包