第七章数据挖掘及其安全问题.ppt

下载文档 降价啦

4
0
约2.53千字
约 73页
2016-07-24 发布于湖北
举报
版权申诉
保障服务

第七章数据挖掘及其安全问题.ppt

1、本文档共73页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第七章数据挖掘及其安全问题

第七章数据挖掘及其安全问题;本章概要 ; 7.1数据挖掘技术;;; 7.1.2 数据挖掘的定义;数据挖掘系统的组成 ;;; 数据挖掘任务：包括分类或预测知识模型发现，数据总结，数据聚类，关联规则发现，时序模式发现，依赖关系或依赖模型发现，异常和趋势发现等。数据挖掘对象：包括关系数据库，面向对象数据库，空间数据库，时态数据库，文本数据库，多媒体数据库，异构数据库，数据仓库，和Web数据库等。数据挖掘方法：包括统计方法，机器学习方法，神经网络方法和数据库方法。;7.1.3 数据挖掘的过程;步骤3：模式发现．蕴含在数据中的规律、规则或特片（即知识），表现在数据的某种模式上，发现数据模式关键是人机交互地选择算法，这一步是数据挖掘中的核心内容。步骤4：解释评估．从挖掘出的模式中得到有趣的??式，即对用户有用的模式，即对挖掘出的模式进行解释评估。;步骤2：数据预处理数据预处理的主要任务;数据归约在可能获得相同或相似结果的前提下，对数据的容量进行有效的缩减数据离散化对于一个特定的连续属性，尤其是连续的数字属性，可以把属性值划分成若干区间，以区间值来代替实际数据值，以减少属性值的个数.;一、数据清理;使用属性的平均值填充空缺数值简单方便、挖掘结果容易产生不精确的结果使用与给定元组同一个类别的所有样本的平均值分类非常重要，尤其是分类指标的选择使用最有可能的值予以填充利用回归、基于推导的使用贝叶斯形式化的方法的工具或者判定树归纳确定利用属性之间的关系进行推断，保持了属性之间的联系 ;2、消除噪音;分箱方法举例;基于聚类分析的平滑处理;二、数据集成;数据集成的内容模式集成利用数据库和数据仓库的元数据信息主要工作是识别现实世界中的实体定义，判断数据源中的有关属性是不是指同一个实体冗余数据的处理检测和解决数值冲突对于现实世界中的同一实体，来自于不同数据源的属性值可能不同主要原因：不同的数据表示、度量单位、编码方式以及语义的不同;1、模式集成;2、冗余数据的处理;三、数据转换;四、数据归约的提出;数据归约的方法数据立方体聚集：聚集操作作用于立方体中的数据,有利于进行多层次的数据分析减少数据维度（维归约）：可以检测并删除不相关、弱相关或者冗余的属性或维数据压缩：应用数据编码或变换，以便得到数据的归约或压缩表示，分为有损压缩（如字符串压缩）和无损压缩（如影像文件的压缩）。数值归约：用替代的、较小的数据表示替换或估计数据;;五、数据离散化和概念层次;数据预处理的形式;步骤3：模式发现模式发现：模型构造的过程主要包括：选择适用的挖掘技术、建立培训数据和测试数据、利用培训数据采用相应的算法建立模型、模型解释、模型评估和检验。;步骤4：解释评估模式兴趣度的度量：一种是客观度量，例如对于形如Ｘ→Ｙ的关联规则．客观度量通常采用支持度和置信度来定义。另一种是主观度量，实际上是用户的一种主观预感，认为合理的或认为出乎意料的，给出模式是否有趣的结论．数据挖掘的完全性：数据挖掘能否挖掘出所有有趣的模式。;7.1.4 数据挖掘基本方法; 一、分类; ; ; ; ;3、计算信息增益由期望信息和熵值可以得到对应的信息增益值。属性A的信息增益由下式给出：具有最高信息增益的属性选作给定集合S的测试属性。创建一个节点，并以该属性标记，对属性的每个值创建分枝，并据此划分样本。;例：根据如下数据集构造决策树模型。根据表7-1 All Electronics顾客数据库数据元组训练集。;;;2、计算每个属性的熵计算age的熵：计算age属性给定对于给定的子集Sj的期望信息：其中，Pij=Sij/Sj是样本属于类Ci的概率。 age=“=30”: s11=2, s21=3, I(s11,s21)=I(2,3)=-2/5 *log2(2/5) -3/5 *log2(3/5) = 0.971;同样计算： age=“31…40”: s12=4, s22=0, I(s12,s22) = 0 age=“40”: s13=3, s23=2, I(s13,s23)=0.971 E(age)=5/14*I(s11,s21)+4/14*I(S12,S22) +5/14*I(S13,S23)=0.694; ;45; ;二、聚类;三、关联规则关联分析是数据挖掘中较早引起兴趣的一种数据分析方法，关联规则反映一个事物与其它事物之间的相互依存性和关联性，如果两个事物或者多个事物之间存在一定的关联关系，那么其中一个事物就能够通过其他事物

您可能关注的文档

文档评论（0）

ddf55855 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第七章数据挖掘及其安全问题.ppt