第12章数据挖掘应用12ApplicationsofDataMining.ppt

下载文档 降价啦

2
0
约2.2万字
约 179页
2019-03-16 发布于广东
举报
版权申诉
保障服务

第12章数据挖掘应用12ApplicationsofDataMining.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

随机的数据转换(random data perturbation) A B C D 1 1 1 0 1 0 1 1 0 0 0 1 1 1 1 0 1 0 1 1 Sample Database A B C D 1 1 1 0 1 0 0 1 0 0 0 1 1 1 1 0 1 0 0 1 Distorted Database Distortion Algorithm 随机的数据转换目标统计属性可以较精确得到个体数据不能得到离散型变量转换布尔型变量分类型 (Category) 变量连续型变量转换布尔型变量转换分类型变量转换连续型变量转换布尔型变量转换购物篮问题数据位以概率p 被翻转对经过变化的数据进行挖掘分类型变量转换 Select-a-size Randomization Cut and Paste Randomization Select-a-size Randomization 给定大小为t的事务, 构造t’: 选择j 属于0 到m P[j被选择的概率]= pm[j] 把事务加入t的 j个项加入事务·t’; 其它不在事务t的属性以概率pm 加入事务 t’ 参数pm[j]和pm的选择基于需要的隐私度 Cut and Paste Randomization 给定大小为t的事务, 构造t’: 在0到Km间选择 j 把事务t 的j个项加入t’; 事务t的其它项以概率pm加入 t’ 参数Km和pm的选择基于所需要的隐私度连续型变量隐私保护挖掘方法 Agrawal and Srikant, SIGMOD’00 Bayes’ rule 改进by Agrawal and Aggarwal, SIGMOD’01 Expectation Maximization (EM) Bayes’ rule Agrawal and Srikant (2000) Decision Trees Perturb Data with Value Distortion 用户提供 xi+r 代替 xi r 是一个随机变量，服从分布平均分布 [-a, a] 高斯分布 (u, σ) Bayes’ rule x1,x2,…,xn 是n个独立同分布的随机变量 y1,y2,…,yn 是n个独立同分布的随机变量 W=X+Y 给定FY和W，估计FX 安全多方计算 Motivation: 分布式隐私保护数据挖掘目标：结果公布每个用户只知道自己的数据比较数据隐藏安全多方计算复杂性一般高计算、通信安全性较高高主要问题安全性和准确性的折衷效率适用领域较广 Web, Corporate 小规模分布式 Corporate 分布式隐私保护数据挖掘的目标安全性分析知道自己的数据和最终的结果不清楚其它用户的数据避免相互勾结通信分析分布式隐私保护数据挖掘方法 Semi-Honest Model Malicious 分类水平分布型数据(Horizontal Partitioning) 垂直分布型数据(Vertical Partitioning) 水平型分布数据垂直分布型数据 Thank you !!! * * * * * * * 流数据频繁模式挖掘要求只能对数据流进行一次扫描；处理的数据项是无穷的；实时响应数据处理要求。数据流管理系统的抽象体系结构流数据频繁模式挖掘算法确定区间（deterministic bounds）近似算法：计算一个近似结果，但这个近似结果能够落入由真实结果构成的??区间；概率区间（probabilistic bounds）近似算法：计算一个近似结果，但这个近似结果能够以较高的概率落入由真实结果构成的??区间。算法比较滑动窗口技术自然滑动窗口 31 days 24 hours 4 qtrs 12 months Time Now 24hrs 4qtrs 15minutes 7 days Time Now 25sec. 对数滑动窗口隐私保护数据挖掘隐私保护数据挖掘简介隐私保护数据挖掘面向企业信用评估的分布式隐私保护数据挖掘研究一、隐私保护数据挖掘简介 What Why Who Goal How An Example 什么是数据挖掘数据挖掘是从大量数据中提取或“挖掘”知识的过程。数据挖掘以客观、有效的数据源为物质基础。数据挖掘得到的知识是一种数据归纳的结果，是一种统计的知识。什么是隐私针对不同的应用环境，隐私定义不同。在信息时代，隐私指用户隐藏个人信息的权利和控制自己的信息给其他人的能力。什么是隐私保护数据挖掘 “getting valid data mining results without learning the und