EMASK算法优化和改进.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

EMASK算法的优化和改进;目录;一、研究背景;二、MASK算法介绍;MASK算法所挖掘的数据集是真实数据集经过概率变换形成的,所以需要重构项集的真实支持度。

设真实数据集对应的矩阵为T,T经过歪曲变换后得到的矩阵为D,歪曲概率为p.T的第i列中1的个数记为,0的个数为,D中第i列中1的个数为,0的个数为

其中,,

解此方程组即可有歪曲矩阵D估算出真实矩阵1-项集的支持度。;n-项集的真实支持度的计算方法和单项集类似:

,其中,;MASK算法的实现基于经典Apriori算法,即先产生频繁1-项集,再产生频繁k?项集,最后生成强关联规则。

MASK算法的优点:

1、MASK算法的数据歪曲过程是在用户机上完成的,不需要一个可信任的第三方,隐私度较高。

2、能够保持高度隐私的同时获得比较准确的挖掘结果。

MASK算法缺点就是重构原数据项的真实支持度的指数级的复杂度,执行时间效率低下。;三、EMASK算法的主要思想

;EMASK算法的数据扰动过程与原MASK算法不同的地方在于,EMASK算法对“1”和“0”分别以不同的概率p,q进行扰动。

以1-项集为例:

其中

因为用户希望隐藏的信息数据项“1”明显高于“0”,所以使用不同的参数扰动能提高数据的隐私保护程度。;n-项集:

,,

在真实矩阵的歪曲过程中,某一真实数据项歪曲的概率实际上只和歪曲数据项中所包含的1和0的数量有关。例如在2-项集计算中,数据项“11”保持为“11”的概率为p*p,歪曲为“00”的概率为(1-p)*(1-p),歪曲为“01”和“10”的概率同为p*(1-p)。

所以,真实矩阵和合成矩阵可以被简化为;

其中为在真实矩阵中数据项中“1”的个数为k的总数,例如在2-项集中,表示真实矩阵中数据项“11”的个数,表示数据项“01”和“10”的个数之和,表示数据项“00”的个数。

概率矩阵:

经过以上的处理后,真实矩阵和合成矩阵的阶数相对原MASK算法就从简化为n+1,而概率矩阵M的阶数从原算法的缩减到

,从而在求解M的逆矩阵过程中的时间复杂度由原算法的O()降到O(),明显地改善了算法的时间执行效率。;四、改进算法的思想和实现;

MASK算法:

EMASK算法:

在重构原数据项支持度的过程中,我们只需要找出真实矩阵中最顶端数据项(即数据全为1的数据项)的支持度即可。;在EMASK算法中,按照上述要求将方程式有选择性的展开,可以得到

所以,我们在恢复n-项集真实支持度的计算只需要计算出M逆矩阵的第一行的概率集合已经足够。

在这种情况下,求解一个n+1阶M逆矩阵的过程实际上已经退化为求解一个n+1项数据的数组,如此又能将求解概率矩阵的逆矩阵的时间复杂度下降一个数量级。;我们的改进算法的主要思想就是利用挖掘过程主要考虑顶端元组的特点,简化求解概率矩阵逆矩阵的过程,达到改善执行时间效率的目的。

在原EMASK算法中采用高斯消元法求解概率矩阵的逆矩阵:

,其中为M的伴随矩阵,为M的行列式。

为了得到,需要计算个n阶行列式的值,其执行时间效率为O()。

在改进的EMASK算法中,同样采用高斯消元法求解逆矩阵,和原EMASK算法不同的是,我们只求解的第一行的值,即求解伴随矩第一行的元组,需要计算n+1个n阶行列式的值,其执行的时间效率为O(),和原EMASK算法相比,求解概率矩阵逆矩阵的时间复杂度下降了一个数量级。

;五、下一步的工作计划;谢谢大家!

文档评论(0)

QualityDocument + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档