- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第1章 节 绪论(new) 数据挖掘课件.ppt
1.规则 规则知识由前提条件和结论两部分组成。 由字段项(属性)取值的和取( 与)和析取( 或)组合而成 由决策字段项(属性)取值或者类别项组成 身高 头发 眼睛 第 一 类 人 矮 金色 蓝色 高 红色 蓝色 高 金色 蓝色 矮 金色 灰色 第 二 类 人 高 金色 黑色 矮 黑色 蓝色 高 黑色 蓝色 高 黑色 灰色 矮 金色 黑色 举例:两类人群9个元组 利用数据挖掘方法,可得到如下规则知识: IF(头发=金色 红色)(眼睛=蓝色 灰色)THEN 第一类人 IF(头发=黑色)(眼睛=黑色)THEN 第二类人 2.决策树 由信息量最大的属性值作为根结点,其各取值为分枝,对各分枝所划分的数据元组子集,重复建树过程,扩展决策树,最后得到相同类别的子集,以该类别作为叶结点。 金色 头发 眼睛 蓝色 灰色 红色 第一类人 第二类人 黑色 第一类人 第一类人 第二类人 黑色 金色 头发 眼睛 蓝色 灰色 红色 第一类人 第二类人 黑色 第一类人 第一类人 第二类人 黑色 头发 金色 第二类人 黑色 3.知识基(浓缩数据) 数据挖掘方法能计算 属性的重要程度, 对不重要的属性字段进行删除,对元组能按一定的原则进行合并。这样可大大压缩元组和属性的数目,得到浓缩数据,称为数据基。它是数据的精华,很容易转化为规则知识。 头发 眼睛 第一类人 金色 蓝色 红色 蓝色 黑色 灰色 第二类人 金色 黑色 黑色 蓝色 黑色 灰色 4. 网络权值 神经网络方法经对训练样本集的学习后,所得到的知识是神经网络连接权值和结点的阈值。 5. 公式 科学和工程数据库中存储着大量的实验数据,蕴涵着一定的规律性,通过知识发现算法,可以找出变量间的关系,用公式表示。如,太阳系行星运动数据中包含行星运动周期和行星与太阳的距离,见下表。 水星 金星 地球 火星 木星 土星 周期(天)p 88 225 365 687 4343.5 10767.5 距离(百万公里)d 58 108 149 228 778 1430 通过物理定律发现系统BACON和公式发现系统FDD均可得到开普勒第三定律: d3/p3=25 6. 案例 案例是指人们经历过的一次完整事件。可以利用以前案例中解决问题的方法或处理结果,作为参考或适当修改,以解决当前新的问题。可见,案例是解决新问题的一种知识。如,基于案例的推理,首先建立一个案例库,存储大量成功或失败的案例。推理时利用相似检索技术,针对新闻体,到案例库中去搜索相似案例,再经过对旧案例的修改来解决新问题。 案例知识一般表示为三元组: 问题描述:对求解的问题及周围世界或环境所有特征的描述; 解描述:对问题求解方案的描述; 效果描述:描述解决方案结果的情况,是成功还是失败。 广义知识挖掘 关联知识挖掘 类知识挖掘 预测型知识挖掘 特异型知识挖掘 数据挖掘的方法和技术 广义知识挖掘 广义知识是指描述类别特征的概括性知识。 数据集中存放的一般是细节性的数据,而我们希望从较高层次的视图上处理或观察这些数据。数据挖掘的目的就是根据这些数据的微观特征发现具有普遍性的、更高层次概念的中观或宏观的知识。这类数据挖掘系统是对细节数据所蕴涵的概念特征信息、汇总信息和比较信息等的概括和抽象的过程。 被挖掘出的广义知识可以结合可视化技术以直观的图表形式展示,也可作为分类、预测的基础知识。 主要方法和技术有: 概念描述(Concept Description)方法 多维数据分析 多层次概念描述问题 概念描述(Concept Description)方法: 概念描述本质上就是对某类对象的内涵特征进行概括。分为: 概念描述是广义知识挖掘的重要方法。概念归纳是最具代表性的方法。这种方法来源于机器学习。 特征性(Characterization)描述:描述某类对象的共同特征 区别性(Discrimination)描述:描述不同类对象之间的区别 多维数据分析 多维数据分析是一种广义知识挖掘的有效方法。数据分析的经常性工作是数据的聚集,如计数、求和、求平均、求最大值等。可将这些汇总的操作结果预先计算并存储起来,以便于高级分析使用。最流行的存储汇集数据类的方法是多维数据库技术,它可提供不同抽象层次上的数据视图。如,周数据、月数据、年数据等。 多层次概念描述问题 由数据归纳出的概念是有层次的,不同层次的概念是对原始数据的不同粒度上的概念抽象。例如, “北京工业大学”能归纳出“北京市”、“中国”、“亚洲”等层次。 一个记录
您可能关注的文档
- 第1章 节 -绪论 近代化学导论课件.ppt
- 第1章 节 1 数据库系统概论 数据库原理.ppt
- 第1章 节 1绪论 数据库系统概论-课件.ppt
- 第1章 节 1节107讲义 第一章 节 并行计算机模型 并行处理与体系结构.ppt
- 第1章 节 2绪论 数据库系统概论-课件.ppt
- 第1章 节 AutoCAD 2010入门 AutoCAD 2010入门课件.ppt
- 第1章 节 C语言概述 第1章 节 C语言概述.ppt
- 第1章 节 DataBase绪论 数据库系统概论(第四版)课件.ppt
- 第1章 节 Excel的全新尝试 中文版Excel 2010从入门到精通课件.pptx
- 第1章 节 JAVA基础知识 java语言基础自考.ppt
- 第1章 节 绪论(海洋环境生态学).ppt
- 第1章 节 绪论1-1 药物分析 .ppt
- 第1章 节 绪论2013.8.29 .ppt
- 第1章 节 绪论jian 测量学CAI课件.ppt
- 第1章 节 自动控制原理的一般概念 自动控制理论 课件.ppt
- 第1章 节 行列式1.4行列式的展开 线性代数课件.ppt
- 第1章 节 认识Office三大组件 中文版Office从入门到精通(2010版)课件.pptx
- 第1章 节 设计方法学 现代设计方法.ppt
- 第1章 节 课件 第一章 节 绪论 (Introduction) 卫星海洋学 PPT.ppt
- 第1章 节 走进动画的梦工厂 中文版Flash CS6动画制作课件.pptx
最近下载
- 理想KS系列 KS500 KS600 KS800 速印机中文维修手册.pdf VIP
- 理想 SF 9350 9390 9450 9250 速印机中文维修手册.pdf VIP
- 理想 SF 5450 5350 5250 5050 5430 速印机中文维修手册.pdf VIP
- 给排水国标图集-04S520:埋地塑料排水管道施工.pdf VIP
- 建筑垃圾资源再利用项目商业计划书.pptx VIP
- 智能变电站基础知识(GOOSESV介绍).ppt VIP
- 理想 ES2561 ES3761C 3791 ES5791 系列速印机中文维修手册.pdf VIP
- 产品试产评估报告(最全、最详细版).pdf VIP
- 博弈论教程(第三版).pptx VIP
- 理想 EV ES 2 3 5 系列速印机零件手册.pdf VIP
文档评论(0)