- 1、本文档共73页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第七章 数据挖掘及其安全问题
第七章
数据挖掘及其安全问题;本 章 概 要 ; 7.1数据挖掘技术;;; 7.1.2 数据挖掘的定义;数据挖掘系统的组成
;;;
数据挖掘任务:包括分类或预测知识模型发现,数据总结,数据聚类,关联规则发现,时序模式发现,依赖关系或依赖模型发现,异常和趋势发现等。
数据挖掘对象:包括关系数据库,面向对象数据库,空间数据库,时态数据库,文本数据库,多媒体数据库,异构数据库,数据仓库,和Web数据库等。
数据挖掘方法:包括统计方法,机器学习方法,神经网络方法和数据库方法。;7.1.3 数据挖掘的过程;步骤3:模式发现.
蕴含在数据中的规律、规则或特片(即知识),表现在数据的某种模式上,发现数据模式关键是人机交互地选择算法,这一步是数据挖掘中的核心内容。
步骤4:解释评估.
从挖掘出的模式中得到有趣的??式,即对用户有用的模式,即对挖掘出的模式进行解释评估。;步骤2:数据预处理数据预处理的主要任务;数据归约
在可能获得相同或相似结果的前提下,对数据的容量进行有效的缩减
数据离散化
对于一个特定的连续属性,尤其是连续的数字属性,可以把属性值划分成若干区间,以区间值来代替实际数据值,以减少属性值的个数.;一、数据清理;使用属性的平均值填充空缺数值
简单方便、挖掘结果容易产生不精确的结果
使用与给定元组同一个类别的所有样本的平均值
分类非常重要,尤其是分类指标的选择
使用最有可能的值予以填充
利用回归、基于推导的使用贝叶斯形式化的方法的工具或者判定树归纳确定
利用属性之间的关系进行推断,保持了属性之间的联系
;2、消除噪音;分箱方法举例;基于聚类分析的平滑处理;二、数据集成;数据集成的内容
模式集成
利用数据库和数据仓库的元数据信息
主要工作是识别现实世界中的实体定义,判断数据源中的有关属性是不是指同一个实体
冗余数据的处理
检测和解决数值冲突
对于现实世界中的同一实体,来自于不同数据源的属性值可能不同
主要原因:不同的数据表示、度量单位、编码方式以及语义的不同;1、模式集成;2、冗余数据的处理;三、数据转换;四、数据归约的提出;数据归约的方法
数据立方体聚集:聚集操作作用于立方体中的数据,有利于进行多层次的数据分析
减少数据维度(维归约):可以检测并删除不相关、弱相关或者冗余的属性或维
数据压缩:应用数据编码或变换,以便得到数据的归约或压缩表示,分为有损压缩(如字符串压缩)和无损压缩(如影像文件的压缩)。
数值归约:用替代的、较小的数据表示替换或估计数据;;五、数据离散化和概念层次;数据预处理的形式;步骤3:模式发现
模式发现: 模型构造的过程主要包括:选择适用的挖掘技术、建立培训数据和测试数据、利用培训数据采用相应的算法建立模型、模型解释、模型评估和检验。;步骤4:解释评估
模式兴趣度的度量:一种是客观度量,例如对于形如X→Y的关联规则.客观度量通常采用支持度和置信度来定义。另一种是主观度量,实际上是用户的一种主观预感,认为合理的或认为出乎意料的,给出模式是否有趣的结论.
数据挖掘的完全性:数据挖掘能否挖掘出所有有趣的模式。;7.1.4 数据挖掘基本方法; 一、分类; ; ; ; ;3、计算信息增益
由期望信息和熵值可以得到对应的信息增益值。属性A的信息增益由下式给出:
具有最高信息增益的属性选作给定集合S的测试属性。创建一个节点,并以该属性标记,对属性的每个值创建分枝,并据此划分样本。;例:根据如下数据集构造决策树模型。
根据表7-1 All Electronics顾客数据库数据元组训练集。;;;2、计算每个属性的熵
计算age的熵:
计算age属性给定对于给定的子集Sj的期望信息:
其中,Pij=Sij/Sj是样本属于类Ci的概率。
age=“=30”: s11=2, s21=3,
I(s11,s21)=I(2,3)=-2/5 *log2(2/5) -3/5 *log2(3/5) = 0.971;同样计算:
age=“31…40”:
s12=4, s22=0, I(s12,s22) = 0
age=“40”:
s13=3, s23=2, I(s13,s23)=0.971
E(age)=5/14*I(s11,s21)+4/14*I(S12,S22)
+5/14*I(S13,S23)=0.694; ;45; ;二、聚类;三、关联规则
关联分析是数据挖掘中较早引起兴趣的一种数据分析方法,关联规则反映一个事物与其它事物之间的相互依存性和关联性,如果两个事物或者多个事物之间存在一定的关联关系,那么其中一个事物就能够通过其他事物
您可能关注的文档
最近下载
- 2018年第73期建设项目竣工环境保护验收监测技术培训班成绩单.PDF VIP
- 山东建筑大学《概率论与数理统计》公共课A试题 2.doc VIP
- 2025年台湾AI行销趋势报告(繁体版)-Kolr.docx VIP
- 湖北办公楼监控及电子围栏系统施工组织设计.doc VIP
- 围栏(施工组织设计围栏(施工组织设计).doc VIP
- 2024年台湾YouTube年度社群内容趋势报告(繁体版)-Kolr.pptx VIP
- 诺尔起重设备(中国)有限公司RTG&RMG中国福建招商局漳州开发区363105.pdf VIP
- 小区沥青道路设计做法.doc VIP
- 2025年台湾AI行销趋势报告(繁体版)-Kolr.pdf VIP
- 防雷安全知识试题及答案.doc VIP
文档评论(0)