数据挖掘CHAPTER5概念描述特征与比较.doc

下载文档 降价啦

22
0
约3.45万字
约 25页
2017-04-22 发布于重庆
举报
版权申诉
保障服务

数据挖掘CHAPTER5概念描述特征与比较.doc

1、本文档共25页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘CHAPTER5概念描述特征与比较

概念描述：特征与比较从数据分析的角度，数据挖掘可以分为两类：描述式数据挖掘和预测式数据挖掘。描述式数据挖掘以简洁概要的方式描述数据，并提供数据的有趣的一般性质。预测式数据挖掘分析数据，建立一个或一组模型，并试图预测新数据集的行为。数据库通常存放大量的细节数据。然而，用户通常希望以简洁的描述形式观察汇总的数据集。这种数据描述可以提供一类数据的概貌，或将它与对比类相区别。此外，用户希望方便、灵活地以不同的粒度和从不同的角度描述数据集。这种描述性数据挖掘称为概念描述，它是数据挖掘的一个重要部分。本章，你将学习概念描述如何有效地进行。 5.1 什么是概念描述？描述性数据挖掘的最简单类型是概念描述。概念通常指数据的汇集，如frequent_buyers, graduate_students等。作为一种数据挖掘任务，概念描述不是数据的简单枚举。概念描述产生数据的特征和比较描述。当被描述的概念涉及对象类时，有时也称概念描述为类描述。特征提供给定数据汇集的简洁汇总，而概念或类的比较（也称为区分）提供两个或多个数据汇集的比较描述。由于概念描述涉及特征和比较，我们将逐一研究这些任务的实现技术。概念描述与数据泛化密切相关。给定存放在数据库中的大量数据，能够以简洁的形式在更一般的（而不是在较低的）抽象层描述数据是很有用的。允许数据集在多个抽象层泛化，便于用户考察数据的一般行为。例如，给定AllElectronics数据库，销售经理可能不想考察每个顾客的事务，而愿意观察泛化到高层的数据。如，根据地区按顾客的分组汇总，观察每组顾客的购买频率和顾客的收入。这种多维、多层数据泛化类似于数据仓库中的多维数据分析。在这种意义下，概念描述类似于第2章讨论的数据仓库的联机分析处理（OLAP）。 “大型数据库的概念描述和数据仓库的联机分析处理有何不同？”二者之间的主要差别如下：复杂的数据类型和聚集：数据仓库和OLAP工具基于多维数据模型，将数据看作数据方形式，由维（或属性）和度量（聚集函数）组成。然而，对于这些系统的大部分商品化版本，维和度量的数据类型都是很有限的。许多当前的OLAP系统限制维必须是非数值数据注意，在第3章中，我们介绍了概念分层可以由数值数据自动产生，形成数值维。然而，这一特点是数据挖掘的最近研究成果，在大多数商品化系统中还未使用。。类似地，在当前的OLAP系统中，度量（如count(), sum(), avg()）也仅用于数值数据。相反，对于概念形成，数据库属性可以是各种各样的数据类型，包括数值的、非数值的、空间的、文本的或图象的。此外，数据库中属性的聚集也可能包括复杂的数据类型，如非数值数据的集合，空间区域的合并，图象的合成，文本的集成，和对象指针分组等。这样，由于可能的维和度量类型的限制，OLAP只表现为一种简单的数据分析模型。需要时，数据库中的概念描述可以处理具有复杂数据类型的属性和它们的聚集。用户控制与自动处理：数据仓库中的联机分析处理纯是用户控制的过程。维的选择和诸如下钻、上卷、切块和切片等OLAP操作的使用都由用户指挥和控制。尽管在大部分OLAP系统中，用户控制的界面是相当友好的，但用户确实需要对每个维的作用有透彻的理解。此外，为了找到一个满意的描述，用户需要使用一长串OLAP操作。相反，数据挖掘系统中的概念描述努力成为更自动化的过程，帮助用户确定哪些维（或属性）应当包含在分析中，给定的数据应当泛化到什么程度，以便产生有趣的数据汇总。正如第2章所讨论的，最近，数据仓库和OLAP技术正在朝着处理更复杂的数据类型和嵌入更多的知识发现机制方向进化。随着技术的进一步发展，预期更多的描述性数据挖掘功能将集成到未来的OLAP系统中。本章，你将学习概念描述的方法，包括多层泛化、汇总、特征和比较。这些方法形成实现数据挖掘的两个主要功能模块的基础：多层特征和比较。此外，你还将考察以多种形式表示概念描述的技术，包括表、图表、图和规则。 5.2 数据泛化和基于汇总的特征数据库中的数据和对象通常包含原始概念层的细节信息。例如，sales数据库中的item关系可能包含描述商品的低层信息，如item_ID, name, brand, category, supplier, place_made和price。能够对大的数据集合进行汇总并在高层概念提供结果是有用的。例如，圣诞节期间销售的大量商品的汇总提供这些数据的一般描述，对于销售和市场经理都是非常有帮助的。这要求一个重要的数据挖掘功能：数据泛化。数据泛化是一个过程，它将大的、任务相关的数据集从较低的概念层抽象到较高的概念层。大的数据集有效的、灵活的泛化方法可以分为两类：（1）数据方（或OLAP）方法，和（2）面向属性归纳方法。数据方方法已在第2章介绍。本节，我们介绍面向属性的归纳方法