- 1、本文档共2页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于奇异值分解的银行客户数据隐私保护算法研究.pdf
i息安全 ●InformationSecurity
基于奇异值分解的银行客户数据隐私保护算法研究
文 /季文韬 魏巍
如何在保护客 户数据 隐私的
前提下进行有效的数据挖掘,已
经成为金融业数据挖掘领域的重
要课题。用矩阵的奇异值分解进 区
行数据扰动,不仅 能消除数据 噪
音,还能获得准确的聚类效果。
本文提 出了一种奇异值分解的聚
类算法,实验表明算法能有效的 图 1:SVD-clustering模型
保护客户数据 隐私,而且保 留了
聚类分析的准确特征。
键词】奇异值分解 隐私保护 聚类分析
随着数据挖掘技术和机器学习算法的快
:展,数据隐私保护问题已经越来越引起人
J关注 。目前的隐私保护方法主要分为两类
(1)对原始数据值进行扭 曲、扰动、随
和匿名化,使数据使用者不能得出数据的
;值 。
图2:扰动前后的数据点相对距 离
(2)修改数据挖掘算法,使分布式数据
i中的参与者在不知道确切数据值的情况下 似关联的数据结构。 原始数据,这样,包含隐私保密信息的原始数
}得出数据挖掘的结果。 设A是任 意一个mxn阶实矩 阵,即 据就得到了保护。
数据扰动是隐私保护数据挖掘应用的重 A ∈Rm ,则存在一个mxm阶的正交矩阵u,
2.1SVD—clustering算法流程
l成部分,我们利用奇异值分解 (Singular mxn阶的广义对角矩阵w 和nxn阶的正交矩
edecomposition)SVD)对保密数值属性 阵v,使得 输入:初始矩阵D,划分的聚类的数 目K
:扰动,并在矩阵分解的基础上进行隐私数 A=UWV 输出:转换后的矩阵D,聚类结果
!类。我们所提出的的奇异值分解聚类方法, r n- (1)在矩阵D中找出需要保密的数据属
可以满足保护敏感数据属性的要求,同时 其中, l vJ,∑f=diag(o1,G2,… 性序列 (a)i=l,2,…,n.形成一个新的矩阵A,
fK-means聚类分析的一般特点,能得到准 ,ar),o1≥a2 … oxO。并且A 的秩等于 r。 A=a【l,a2,…,an】;
】数据模型和分析结果。 奇异值分解的显著特点是在降维压缩数 (2)用 SVD算 法 对矩 阵D进 行分解
据的同时保护了主要的数据模式。在隐私保护 SVD(A)=UWV ;
法的理论基础
金融数据挖掘应用中,扰动的数据集Ak可以 (3)找出扰动后的矩阵A=uwkVkT:
在同时提供数据隐私保护,还保留了原始数据 (4)用Ak的值更新数据库D,形成新的
K一均值聚类算法
的可用性,使其真实地表现原始的数据集结构。 矩阵D ;
K.均值聚类算法是一个将包含有n个对 奇异值分解 (SVD)是一种常见的数据挖 (5)在矩阵D 中对保密数据的属性进
l数据集划分成k个聚类的过程,使同一聚 掘矩阵分解方法和信息检索方法。它开始被用 行聚类分析。
来降低数据集的维度。文献 [3]提出了用SVD
,的对象属性相似度较高,而不同聚类中的 2.2算法示例
进行数据扰动的技术,在文献 [4]中,SVD技
属性相似度较小。聚类分析的基本指导思
}是最大程度地实现类中对象相似度最大, 术是用来扰动数据集的模式部分。
文档评论(0)