- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于奇异值分解银行客户数据隐私保护算法探究
基于奇异值分解银行客户数据隐私保护算法探究 摘 要 如何在保护客户数据隐私的前提下进行有效的数据挖掘,已经成为金融业数据挖掘领域的重要课题。用矩阵的奇异值分解进行数据扰动,不仅能消除数据噪音,还能获得准确的聚类效果。本文提出了一种奇异值分解的聚类算法,实验表明算法能有效的保护客户数据隐私,而且保留了聚类分析的准确特征
【关键词】奇异值分解 隐私保护 聚类分析
随着数据挖掘技术和机器学习算法的快速发展,数据隐私保护问题已经越来越引起人们的关注。目前的隐私保护方法主要分为两类:
(1)对原始数据值进行扭曲、扰动、随机化和匿名化,使数据使用者不能得出数据的原始值
(2)修改数据挖掘算法,使分布式数据挖掘中的参与者在不知道确切数据值的情况下仍能得出数据挖掘的结果
数据扰动是隐私保护数据挖掘应用的重要组成部分,我们利用奇异值分解(Singular value decomposition)SVD)对保密数值属性进行扰动,并在矩阵分解的基础上进行隐私数据聚类。我们所提出的的奇异值分解聚类方法,不仅可以满足保护敏感数据属性的要求,同时保留K-means聚类分析的一般特点,能得到准确的数据模型和分析结果
1 算法的理论基础
1.1 K-均值聚类算法
K-均值聚类算法是一个将包含有n个对象的数据集划分成k 个聚类的过程,使同一聚类中的对象属性相似度较高,而不同聚类中的对象属性相似度较小。聚类分析的基本指导思想就是最大程度地实现类中对象相似度最大,类间对象相似度最小
1.2 奇异值分解
奇异值分解在数据挖掘的应用中,特别是在文本挖掘中并不是新技术,但在隐私保护的数据扰动中的应用是最近兴起的。一个奇异值分解的显著特点是在降维压缩数据的同时维持主要的数据模式。矩阵分解的主要目的是从原始数据集获得一些低维的,对象和属性的近似关联的数据结构
奇异值分解的显著特点是在降维压缩数据的同时保护了主要的数据模式。在隐私保护金融数据挖掘应用中,扰动的数据集Ak可以在同时提供数据隐私保护,还保留了原始数据的可用性,使其真实地表现原始的数据集结构
奇异值分解(SVD)是一种常见的数据挖掘矩阵分解方法和信息检索方法。它开始被用来降低数据集的维度。文献[3]提出了用SVD进行数据扰动的技术,在文献[4]中,SVD技术是用来扰动数据集的模式部分
2 SVD-clustering模型及算法
SVD-clustering模型包含?刹糠郑菏?据扰动部分和数据的聚集部分。模型如图1所示。我们假设只有数据的拥有者和授权用户才可以对数据进行处理。经过数据扰动,原始的数据集转换成完全不同的数据矩阵,数据使用者利用K-means聚类等数据挖掘算法对扰动的数据进行检索。因为数据使用者未经授权不能得到原始数据,这样,包含隐私保密信息的原始数据就得到了保护
2.1 SVD-clustering算法流程
输入:初始矩阵D,划分的聚类的数目K
输出:转换后的矩阵D’,聚类结果
(1)在矩阵D中找出需要保密的数据属性序列(ai)i=1,2,…,n.形成一个新的矩阵A,A=[a1, a2,…,an];
(2)用SVD算法对矩阵D进行分解SVD(A)=UWVT;
(3)找出扰动后的矩阵AK=UkWkVkT;
(4)用Ak的值更新数据库D,形成新的矩阵D′;
(5)在矩阵 D′中对保密数据的属性进行聚类分析
2.2 算法示例
样本数据如表1所示,在隐私保护的第一阶段采用匿名保护,用编号代替被采样者,假设已经去除了标识符(如姓名、身份证号码、地址等)。在这个样本中我们比较关注年龄和年薪两个属性,假设数据的使用者想利用这些人的年龄和年薪对他们进行分类。但是这些属性值都是保密的信息,即要对这两个属性进行隐私保护
为了达到隐私保护的目的,我们利用SVD-clustering模型对数据进行扰动。图2显示经过扰动后各个数据对象在扰动前后聚类中的相对距离
3 实验结果分析
为简单起见,我们只考虑转化两个隐私数据属性,年龄和年薪。每次聚类包含6个数据点,在表2中,分别表示包含年龄和工资两个属性的六个数据点。在扰动前,当K=3时,对象1,3,6在聚类1中,对象4,5在聚类2中,对象2在聚类3中,在数据扰动后,当K=3时,数据1,3,6在聚类1中,对象2在聚类2中,对象4,5在聚类3中
实验的效率根据原始数据和扰动后数据的合法点聚类检测出来的。在进行数据扰动后聚类的簇元素和原始数据聚类后的簇元素应该一致,但是在数据扰动过程中可能存在一些潜在的问题:一些噪音点中断了聚类过程;一个聚类中的数据点变成噪音点;一个数据点从一个聚类转移到另一个聚类。由于我们采用的K-means聚类算法已经消除了
文档评论(0)