- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
·雹玩遗L出工业工程版20052[E10月 基于关联趣则挖掘的隐私保护方法研究
基于关联规则挖掘的隐私保护方法研究
贺庆冯海旗
(北京理工大学,北京1(劬081)
摘要:本文探讨了数据挖掘中可能涉及到的各种隐私数据泄漏问题。为了保护个人隐私和商业机
密.提出在关联规则挖掘的三个阶段:数据预处理阶段、数据挖掘实施阶段和挖掘结果共享阶段应
分别利用的臆私保护方法。在数据挖掘实践中.应结合具体的任务目的选取利用不同的方法或它们
的组合以保护敏感信息。
关键词:数据挖掘;关联规则;隐私保护
一、引 言
数据挖掘技术已经在众多领域取得了广泛的应用,很多机构收集、分析和记录个人、商业信息、数
据,创造了巨大的商业价值和社会价值。数据挖掘本身不存在是否合法的问题,但数据挖掘过程中往往
存在信息泄漏的情况,尤其是在多个数据源合作挖掘时,各数据源间的信息泄潺问题;挖掘出的结果也
往往会导致敏感数据的泄露,如:个人的隐私信息、企业的客户资料、产品销售策略等商业规密。类似
信息的泄露往往会给个人或企业带来经济损失。因此,需要研究新方法确保数据挖掘中的隐私数据不被
泄露。研究人员已开始对数据挖掘中触犯隐私的问题进行研究.并提出一些解决这些问题的途径,包括
在挖掘算法中建立隐私约束规则,在应用挖掘算法之前对待挖掘数据集应用随机化方法、用样本替代真
实数据、对记录进行变换、用泛化数据替代详细数据等。本文针对多个数据源进行含作关联规贝q挖掘的
情形,从整个数据挖掘的流程考虑,在数据预处理阶段,仅对敏感的属性数据进行随机化处理,避免了
对数据库中所有交易信息的随机化处理可能带来的标准数据挖掘算法失效和挖掘结果精确度、准确度降
低的问题;在数据挖掘实施阶段利用多个数据源问的信息保护方法以较小的运算代价隐藏了各个数据源
的敏感信息,同时避免了某些数据源相互勾结推导其他数据源的信息;并利用保护敏感项和敏感规则的
方法避免泄露商业机密,从而在数据挖掘的整个阶段确保了信息安全。
二、关联规则挖掘中的隐私数据和信息
1.美联规则挖掘
则挖掘成为数据挖掘中—个重要的研究方向,本文将着重研究关联规则挖掘中的隐私保护方法。
设I=:{i.,i2,···,f。}是项的集合。D为数据库交易的集合,其中每个交易r是项的集合,有r∈,。
每个交易有一个标示符,称作强D。关联规则是形如A≥B的蕴涵式,其中Acl,县c,,且
义如下:
support(A≥B)=lp:AuB£丁,T∈Dl/1D1;
}p:4u曰£T,T∈Dl
jB1
confidence(A
弦:A∈丁,T∈Dl
·122·
国函巳老L求工业工程殷2005年10月 基于关联规则挖掘的强私保护方法研究
同时满足最小支持度阈值(rain.sup)和最小置信度阈值(minfnoc_。则规强为称则规的)
2.关联规则挖掘中的隐私数据和信息
(1)隐藏数据源中的某些具体信息。具体信息指数据某项届性的值。如客户的信用卡号码、财产等
个人隐私信息。以明示或隐含的方式披露个人的具体数据,都有可能使客户被唯一地辨识出来。例如人们
可以根据数据仓库中提供的客户年龄、邮政编码和车型数据的组合,唯一地确定某客户,使其银行卡、信
用卡号码等隐私信息暴露。
(2)在多个数据源的合并使用中,使用集成的数据能够发现仅分析单个数据源不能得到的新模式。
数据仓库的优势之一就是能够将多种来源的数据集成起来,这些数据源通常包括业务数据、历史数据、外
部数据以及数据源元数据。数据挖掘可以将原本分散在各数据源中的数据合并在一起清晰地展现出来,提
炼出隐藏在数据背后的新模式。这意味着客户在各个领域的行为将通过数据集成而被掌握。而这些行为
的汇聚。可能是客户不想让他人知晓的。
汇聚数据的同时应确保各个数据源之间数据不透明,各自的数据库规模、数据的统计信息、汇总数
据等应互相保密。比如:同一地区的几家零售商进行合作关联规则挖掘,寻
文档评论(0)