- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
EMASK算法优化和改进
EMASK算法的优化和改进 目录 一、研究背景 二、MASK算法介绍 三、EMASK算法的主要思想 四、改进算法的思想 五、下一步工作计划 一、研究背景 随着信息技术,特别是网络技术数据存储技术和高性能处理器技术的飞速发展,海量数据的收集管理和分析变得越来越方便,知识发现和数据挖掘更是在一些深层次的应用中发挥了积极的作用.但与此同时,也带来了隐私保护方面的诸多问题.例如,通过对医院病人的病历数据进行挖掘,可以发现各种疾病之间的关联. 所以,如何在数据挖掘过程中解决好隐私保护的问题,目前已经成为数据挖掘界的一个研究热点 。 二、MASK算法介绍 MASK(Mining Associations with Secrecy Konstraints)算法由印度学者Rizvi在2002年提出的。 假定数据集为超市购物篮数据,所挖掘的数据集可以看作由0和1组成的二维稀疏布尔矩阵,1表示购买某件商品,0表示没有购买.为了保护输入数据集的隐私性,MASK算法采用概率歪曲的方法对原始数据集进行扰乱操作.一个0-1数据库元组可以看成一个随机向量X ={Xi} , Xi =0或者1.对Xi 进行歪曲操作得到Yi = Xi XOR !ri ,其中!ri是ri 的补, ri 是满足贝努利分布的随机变量,分布律为p(ri=1)=p,p(ri=0)=1-p.由异或计算的特点可知随机向量X 经过歪曲操作后,第i 个分量Xi 保持原值的概率为p ,取其相反值的概率为1- p。 MASK算法所挖掘的数据集是真实数据集经过概率变换形成的,所以需要重构项集的真实支持度。 设真实数据集对应的矩阵为 T , T 经过歪曲变换后得到的矩阵为 D ,歪曲概率为p . T 的第 i 列中1的个数记为 ,0的个数为 , D 中第 i 列中1的个数为 ,0的个数为 其中 , , 解此方程组即可有歪曲矩阵D估算出真实矩阵1-项集的支持度 。 n-项集的真实支持度的计算方法和单项集类似: ,其中 , MASK算法的实现基于经典Apriori算法,即先产生频繁1-项集,再产生频繁k ? 项集,最后生成强关联规则。 MASK算法的优点: 1、MASK算法的数据歪曲过程是在用户机上完成的,不需要一个可信任的第三方,隐私度较高。 2、能够保持高度隐私的同时获得比较准确的挖掘结果。 MASK算法缺点就是重构原数据项的真实支持度的指数级的复杂度,执行时间效率低下。 三、EMASK算法的主要思想 基于MASK算法,大量改进的优化算法相继被提出。 Agrawal等人在此基础上在2004年提出了MASK算法的改进算法,称之为EMASK(Efficient MASK)算法。 EMASK算法是公认的针对MASK算法的改进算法中改进的时间效率和空间效率非常有效的一种改进方法。 EMASK算法的数据扰动过程与原MASK算法不同的地方在于,EMASK算法对“1”和“0”分别以不同的概率p,q进行扰动。 以1-项集为例: 其中 因为用户希望隐藏的信息数据项“1”明显高于“0”,所以使用不同的参数扰动能提高数据的隐私保护程度。 n-项集: , , 在真实矩阵的歪曲过程中,某一真实数据项歪曲的概率实际上只和歪曲数据项中所包含的1和0的数量有关。例如在2-项集计算中,数据项“11”保持为“11”的概率为p*p,歪曲为“00”的概率为(1-p)*(1-p),歪曲为“01”和“10”的概率同为p*(1-p)。 所以,真实矩阵和合成矩阵可以被简化为 四、改进算法的思想和实现 虽然EMASK算法在求解逆矩阵过程中消除了原MASK算法的指数级的时间复杂度,但如果考虑到重构原数据项支持度的特点,求逆过程中仍然有改善的空间。 无论是MASK算法还是EMASK算法的实现都是基于经典Apriori算法,即先产生频繁1-项集,再产生频繁n-项集,最后生成强关联规则。前面说过超市购物篮数据的特点是二维布尔稀疏矩阵,0的数量远远大于1,所以在数据重构和挖掘过程中,考虑的重点是数据项为1的支持度和强关联规则。 MASK算法: EMASK算法: 在重构原数据项支持度的过程中,我们只需要找出真实矩阵中最顶端数据项(即数据全为1的数据项)的支持度
文档评论(0)