网站大量收购独家精品文档,联系QQ:2885784924

专题数据挖掘发现知识的类型..ppt

  1. 1、本文档共94页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第4章 数据挖掘发现知识的类型 4.1 广义知识 4.2 关联知识 4.3 分类知识 4.4 预测型知识 4.5 偏差型知识 4.1 广义知识 从数据分析角度出发,数据挖掘可以分为两种类型: 描述型数据挖掘——以简洁概述的方式表达数据中的存在一些有意义的性质 预测型数据挖掘——通过对所提供数据集应用特定方法分析所获得的一个或一组数据模型,并将该模型用于预测未来新数据的有关性质。 4.1 广义知识 数据库通常包含了大量细节性数据,然而用户却常常想要得到能以简洁描述性方式所提供的概要性总结(summarized)。这样的数据摘要能够提供一类数据的整体情况描述;或与其它类别数据相比较的有关情况的整体描述。 此外用户通常希望能轻松灵活地获得从不同角度和分析细度对数据所进行的描述。 描述型数据挖掘又称为概念描述,它是数据挖掘中的一个重要组成部分。下面就将主要介绍如何有效地进行定性归纳以获得概念描述的有关内容。 第4章 数据挖掘发现知识的类型 4.1.1 广义知识的概念 定义 广义知识是指类别特征的概括性描述知识,也称为概念描述。它反映同类事物共同性质,是对数据的概括、精炼和抽象。 广义知识是对大量数据的归纳、概括,提炼出带有普遍性的、概括性的描述统计知识。 第4章 数据挖掘发现知识的类型 数据库中数据及对象在基本概念层次包含了许多细节性的数据信息。 在商场销售数据库的商品信息数据中,就包含了许多诸如:商品编号、商品名称、商品品牌等低层次信息,对这类大量的数据进行更高层次抽象以提供一个概要性描述是十分重要的。 例如:对春节所销售商品情况进行概要描述,对于市场和销售主管来讲显然是十分重要的。 最简单的描述型数据(广义知识)挖掘就是定性归纳。定性归纳常常也称为概念描述。这里概念描述涉及一组(同一类别)的对象,诸如:商店常客等。 概念描述生成对数据的定性描述和对比定性描述。 定性概念描述提供了一个有关数据整体的简洁清晰描述(概念内涵) 对比定性概念描述提供了基于多组(不同类别)数据的对比概念描述(概念外延) 第4章 数据挖掘发现知识的类型 给定存储在数据库中的大量数据,能够用简洁清晰的高层次抽象泛化名称来描述相应的定性概念是非常重要的,这样用户就可以利用基于多层次数据抽象的功能对数据中所存在的一般性规律进行探索。 例如在商场数据库中,销售主管不用对每个顾客的购买记录进行检查,而只需要对更高抽象层次的数据进行研究即可。 如:对按地理位置进行划分的顾客购买总额、每组顾客的购买频率以及顾客收入情况进行更高层次的研究分析。这种多维多层次的数据泛化分析与数据仓库中的多维数据分析, 第4章 数据挖掘发现知识的类型 4.1.2 广义知识的发现方法 要顺利完成概要描述任务,就需要一个十分重要的数据挖掘功能:数据泛化。 数据泛化是一个从相对低层概念到更高层概念且对数据库中与任务相关的大量数据进行抽象概述的一个分析过程。 对大量数据进行有效灵活的概述方法主要有两种 1.数据立方体 2.面向属性的规约 1.数据立方体 数据立方的维是通过一系列能够形成层次的属性或网格,例如:日期(date)可以包含属性天、周、月、季和年,这些属性构成了维的网格。 利用数据立方方法(又称为OLAP方法)进行数据泛化,就是在数据立方中存放着预先对部分或所有维(属性)的聚合计算结果。 通常数据立方中的数据需要经过费时复杂的运算操作(如:sum、count、average),不同的抽象层次均需要进行这类运算,将这些运算与操作结果存放在这些数据立方中,最终所获得的这些数据立方可用于决策支持、知识发现,或其它许多应用。 1.数据立方体 对多维数据立方的数据泛化和数据细化工作,可以通过roll up或drill down操作实现 上卷(roll-up):汇总数据 消减数据立方中的维数(维规约),或将属性值泛化为更高层次的概念(概念分层向上攀升) 下钻(drill-down):上卷的逆操作 由不太详细的数据到更详细的数据,可以通过沿维的概念分层向下或引入新的维来实现 1.数据立方体 数据立方方法提供了一种有效的数据泛化方法,且构成了描述型数据挖掘中一个重要功能。 数据立方体方法局限性: 数据类型限制 多数商用数据立方的实现都是将维的类型限制在数值类型方面,而且将处理限制在简单数值聚合方面。由于许多应用涉及到更加复杂数据类型的分析,此时数据立方体的方法应用有限。 缺乏一定的标准 数据立方方法并不能解决概念描述所能解决的一些重要问题,诸如:在描述中应该使用哪些维?在泛化过程应该进行到哪个抽象层次上。这些问题均要由用户负责提供答案的。 2.面向属性的归约(Attribure-Oriented Induction, 简称AOI) 数据立方方法是基于数据仓库、预先

您可能关注的文档

文档评论(0)

586334000 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档