第六章 数据挖掘基本算法-3课题.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据仓库与数据挖掘 数据仓库与数据挖掘 第一章 数据仓库与数据挖掘概述 第二章 数据仓库的分析 第三章 数据仓库的设计与实施 第四章 信息分析的基本技术 第五章 数据挖掘过程 第六章 数据挖掘基本算法 第七章 非结构化数据挖掘 第八章 离群数据挖掘 第九章 数据挖掘语言与工具的选择 第十章 知识管理与知识管理系统 第六章 数据挖掘基本算法 6.1 分类规则挖掘 6.2 预测分析与趋势分析规则 6.3 数据挖掘的关联算法 6.4 数据挖掘的聚类算法 6.5 数据挖掘的统计分析算法 6.6 数据挖掘的品种优化算法 6.7 数据挖掘的进化算法 6.4 数据挖掘的聚类算法 聚类分析是对群体及成员进行分类的递归过程。 一个簇是一组数据对象的集合,在同一簇中的对象彼此类似,而不同簇中的对象彼此相异。 将一组物理或抽象对象分组成由类似对象组成的多个簇的过程被称为聚类。 聚类就是将数据对象分组成多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。 距离是经常采用的度量方式。 6.4 数据挖掘的聚类算法 聚类分析的应用:市场或客户分割、模式识别、生物学研究、空间数据分析、Web文档分类等。 聚类分析可以用作独立的数据挖掘式工具,来获得对数据分布的了解,也可以作为其他数据挖掘算法的预处理步骤。 聚类的质量是基于对象相异度来评估的。相异度是描述对象的属性值来计算的。 相异度可以对多种类型的数据来计算,包括区间标度变量、二元变量、标称变量、序数型变量和比例度型变量类型的组合。 6.4 数据挖掘的聚类算法 聚类分析的算法可以分为: 划分方法:首先得到初始的K个划分的集合。如K-平均、K-中心点、CLARANS以及对它们的改进。 层次方法:创建给定数据对象集合的一个层次性的分解。根据层次分解的过程可以分为凝聚(自底向上)或分裂(自顶向下)。 基于密度的方法:根据密度的概念来聚类对象,如DBSCAN、DENCLUE、OPTICS。 基于网格的方法:首先将对象空间量化为有限数目的单元,形成网格结构,然后在网格结构上进行聚类,如STING、CLIQUE、WaveCluster。 基于模型的方法:为每个簇假设一个模型,发现数据对模型的最好匹配,如COBWEB、CLASSIT和AutoClass。 6.4 数据挖掘的聚类算法 6.4 数据挖掘的聚类算法 6.4.1 聚类分析的概念 6.4.2 聚类分析中两个对象之间的相异度计算方法 6.4.3 划分方法 6.4.4 层次方法* 6.4.5 基于密度的方法* 6.4.6 基于网格的方法* 6.4.7 基于模型的聚类方法* 6.4.8 模糊聚类算法* 6.4.1 聚类分析的概念 聚类就是按照事物的某些属性,把事物聚集成类,使类间的相似性尽可能小,类内相似性尽可能大。 聚类是一个无监督学习的过程,它与分类的根本区别在于,分类是需要事先知道所依据的数据特征,而聚类是要找到这个数据特征。因此在很多应用中,聚类分析作为一种数据预处理过程,是进一步分析和处理数据的基础。 聚类是一种对具有共同趋势和模式的数据元组进行分组的方法,试图找出数据集中的共性和差异并将具有共性的元组聚合在相应的类或段中。 6.4.1 聚类分析的概念 数据挖掘对聚类的典型要求如下: 1)可伸缩性:算法能够处理海量的数据库对象。 2)处理不同类型属性的能力 3)发现具有任意形状的聚类的能力 4)输入参数对领域知识的弱依赖性 5)处理噪声数据或离群数据的能力 6)结果对于输入记录顺序的无关性 7)处理高维度数据的能力 8)结果的可解释性和可用性 9)基于约束的聚类分析能力 6.4.2 聚类分析中两个对象之间的相异度计算方法 基于内存的聚类算法多选择如下两种有代表性的数据结构: (1)数据矩阵(data matrix) 数据矩阵用m个变量(也称属性)来表现n个对象,这种数据结构是关系表的形式,或n?m维(n个对象?m 个属性)的矩阵。 6.4.2 聚类分析中两个对象之间的相异度计算方法 (2)相异度矩阵(dissimilatory matrix) 存储n个对象两两之间的近似性,通常用一个n?n维的矩阵表示。 6.4.2 聚类分析中两个对象之间的相异度计算方法 数据矩阵的行和列代表不同的实体,也被称为二模矩阵。 相异度矩阵的行和列代表相同的实体,也被称为单模矩阵。 许多聚类算法都是以相异度矩阵为数据源运行的,如果数据是用数据矩阵的形式存储的,在使用聚类算法之前要将其转化为相异度矩阵。 6.4.2 聚类分析中两个对象之间的相异度计算方法 计算相异度的常用方法有:区间标度变量计算方法,二元变量计算方法,标称、序数和比例标度计算方法,或这些变量类型的组合来描述对象的相异度计算方法。 6.4.2 聚类分析中两个对象之间的相异度计算方法 (1)区间标

文档评论(0)

***** + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档