- 1、本文档共61页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
决策支持系统及其开发;5.5知识发现与数据挖掘
5.6数据挖掘的决策支持及应用;DW的兴起
(1)80年在美国召开了第一届国际机器学习研讨会;
(2)89年8月,美国底特律市召开的第一届KDD国际学术会议;
(3)95年,加拿大召开了第一届KDD和DM国际学术会议;
(4)我国于87年召开了第一届全国机器学习研讨会。
;5.5.1知识发现与数据挖掘概念;5.5.1知识发现与数据挖掘概念;5.5.1知识发现与数据挖掘概念;5.5.1知识发现与数据挖掘概念;5.5.1知识发现与数据挖掘概念;;数据准备:数据选择(dataselection)、数据预处理(datapreprocessing)和数据转换(datatransformation)。
数据选择:确定操作对象,即目标数据(targetdata),是根据用户的需要,从原始DB中选取的一组数据。
数据预处理:消除噪声、处理缺值数据、消除重复记录等。
数据转换:完成数据类型转换,进行属性约简(从初始属性中找出真正有用的属性,删除无用属性,以减少数据挖掘时要考虑的属性个数)。;数据挖掘;结果的解释和评估;数据挖掘任务;数据挖掘任务;属性约简;补充:数据挖掘与传统分析方法的区别;补充:数据挖掘与联机分析处理的区别;5.5.2数据挖掘方法和技术;5.5.2数据挖掘方法和技术;2、集合论方法
(1)粗糙集(RoughSet)方法
对数据库中的条件属性集与决策属性集建立上下近似关系,对下近似集合建立确定性规则,对上近似集合建立不确定性规则(含可信度)。
(2)关联规则挖掘
在交易事务数据库中,挖掘出不同商品集的关联关系,即发现哪些商品频繁地被顾客同时购买。
(3)覆盖正例排斥反例方法
它是利用覆盖所有正例,排斥所有反例的思想来寻找规则。较典型的有AQ11方法、AQ15方法及AE5方法。;(二)仿生物技术
典型的仿生物技术方法是神经网络方法和遗传算法。
1、神经网络方法:包括:前馈式网络、反馈式网络、自组织网络等多个神经网络方法。
2、遗传算法:模拟生物进化过程的算法。它由三个基本算子组成:繁殖(选择)、交叉(重组)、变异(突变)
遗传算法起到产生优良后代的作用,经过若干代的遗传,将得到满足要求的后代(问题的解)。;(三)公式发现
在工程和科??数据库中对若干数据项(变量)进行一定的数学运算,求得相应的数学公式。
1.物理定律发现系统BACON
BACON发现系统完成了物理学中大量定律的重新发现。
2.经验公式发现系统FDD
寻找由数据项的初等函数或复合函数组合成的经验公式。
;(四)统计分析方法
利用统计学原理对总体中的样本数据进行分析,得出描述和推断该总体信息和知识的方法。
(五)模糊数学方法
利用模糊集合理论进行数据挖掘,如模糊聚类、模糊分类等。
(六)可视化技术
利用可视化技术分析数据库,找到潜在的有用信息。;5.5.3数据挖掘的知识表示(一);5.5.3数据挖掘的知识表示(一);2、决策树
例如:上例的人群数据库,按ID3方法得到的决策树如下:;3、知识基(浓缩数据)
例如上例的人群数据库,通过计算可得出身高是不重要的字段,删除它后,再合并相同数据元组,得到浓缩数据如下表:;4、网络权值
神经网络方法经过对训练样本的学习后,所得到的知识是网络连接权值和结点的阈值。;5、公式
例如,太阳系行星运动数据中包含行星运动周期(旋转一周所需时间,天),以及它与太阳的距离(围绕太阳旋转的椭圆轨道的长半轴,百万公里),数据如下表:;5.6数据挖掘的决策支持及应用;5.6数据挖掘的决策支持及应用;DM的决策树方法的原理是信息论。信息论是C.E.Shannon为解决信息传递(通信)过程问题而建立的理论,也称为统计通信理论。
传递信息的系统是由发送端(信源)和接收端(信宿)以及连接两者的通道(信道)三者组成。
信息论把通信过程看做在随机干扰的环境中传递信息的过程。在这个通信模型中,信息源和干扰(噪声)都被理解为某种随机过程或随机序列。;在进行实际通信之前,收信者(信宿)不可能确切了解信源究竟会发出什么样的具体信息,不可能判断信源会处于什么样的状态。
此情形称为信宿对于信源状态具有不确定性。这种不确定性存在通信之前的,又叫做先验不确定性。
通信之后,信宿收到了信源发来的信息,这种先验不确定性才会被消除或者被减少。
如果干扰很小,信源发出的信息能够被信宿全部收到。此种情况下,信宿的先验不确定性就会被完全消除。
;一般情况下,干扰总会对信
文档评论(0)