数据挖掘聚类分析课件.ppt

下载文档 降价啦

55
0
约5.64千字
约 36页
2017-08-14 发布于河南
举报
版权申诉
保障服务

数据挖掘聚类分析课件.ppt

1、本文档共36页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据挖掘聚类分析课件

数据挖掘中的聚类分析算法研究;结构;1.1聚类分析;1.2聚类分析与其他分类或预测的不同;数据挖掘对聚类的典型要求（1）可伸缩性可伸缩性是指算法不论对于小数据集还是对于大数据集,都应是有效的。（2）处理不同字段类型的能力算法不仅要能处理数值型数据，还要有处理其它类型字段的能力，包括分类/标称类型(categorical/nominal)，序数型(ordinal)，二元类型(binary)，或者这些数据类型的混合。 ;（3）能够发现任意形状的聚类有些簇具有规则的形状，如矩形和球形。但是，更一般地，簇可以具有任意形状。（4）用于决定输入参数的领域知识最小化在聚类分析当中，许多聚类算法要求用户输入一定的参数，如希望簇的数目。聚类结果对于输入参数很敏感，通常参数较难确定，尤其是对于含有高维对象的数据集更是如此。（5）处理高维数据的能力既可处理属性较少的数据，又能处理属性较多的数据。很多聚类算法擅长处理低维数据，一般只涉及两到三维，通常最多再加二维的情况下能够很好地判断聚类的质量。 ;（6）能够处理噪声数据现实世界中的数据库常常包含了孤立点、空缺、未知数据或有错误的数据。一些聚类算法对于这样的数据敏感,可能导致低质量的聚类结果。所以我们希望算法可以在聚类过程中检测代表噪声和离群的点，然后删除它们或者消除它们的负面影响。（7）结果对于输入记录顺序不敏感一些聚类算法对于输入数据的顺序是敏感的。对于同一个数据集合，以不同的顺序提交给同一个算法时，可能产生差别很大的聚类结果，这是我们不希望的。 ;（8）基于约束的聚类在实际应用当中可能需要在各种约束条件下进行聚类。找到既要满足特定的约束，又要具有良好聚类特性的数据分组是一项具有挑战性的任务。我们希望聚类算法可以在考虑这些限制的情况下，仍具有较好的表现。（9）可解释性和可用性聚类的结果最终都是要面向用户的，用户期望聚类得到的信息是可理解和可应用的。 ;聚类分析中的数据结构和数据类型（1）数据结构许多基于内存的少类算法选择如下两种有代表性的数据结构。 1）数据矩阵（对象-变量结构）数据矩阵是一张关系表的形式,每列代表对象的一个属性,每个元组代表一个数据对象。具有p个属性的n个对象（例如，人可以用年龄，身高，体重，性别，种族等来描述）可以看成如下n×p(n个对象×p个属性)的矩阵。 ; 2）相异度矩阵（对象-对象结构）它存储n个对象两两之间的差异性，表现形式是n×n维的矩阵。 ; 其中d(i，j)是对象i和对象j之间相异性的量化表示，通常为非负数，且d(i，j)=d(j，i)，d(i，i)=。对象i和对象j越相似，则d(i，j)越接近于0，对象i和对象j的差异越大，则d(i，j)越大。相异度矩阵通常用距离公式计算得到。 ;（2）数据类型聚类分析起源于统计学，传统的分析方法大多是在数值类型数据的基础上研究的。然而数据挖掘的对象复杂多样，要求聚类分析的方法不仅能够对属性为数值类型的数据进行，而且要适应数据类型的变化。 1）区间标度变量区间标度变量是一个粗略线性标度的连续度量。典型的例子则包括重量和高度，经度和纬度坐标，以及摄氏或华氏温度等。数据之间纯在差异性，同时多个属性肯那个有不同的度量单位，所以在计算数据相似性之前要进行数据的标准化。 ; 数据标准化处理以后就可以进行属性值的相似性测量，通常是计算对象间的距离。对于n维向量xi和xj，有以下几种距离函数：欧氏距离曼哈顿距离 ;概化的明考斯基（Minkowski）距离当m=2时，明考斯基D2即为欧氏距离；当m=1时，明考斯基D1即为曼哈顿距离。 ;2）二元变量二元变量只有两个状态：0和1。其中二元变量又分为对称的二元变量和不对称的二元变量。前者是指变量的两个状态不具有优先权，后者对于不同的状态其重要性是不同的。对于二元变量,度量两个变量的差异度可以由简单匹配系数(对称的情况)和Jaccard系数(非对称的情况)决定。设两个对象xi和xj，q是属性值在两个对象中都为1的属性个数，r是属性值在xi中为1而在xj中为0的属性个数，s是属性值在xi中为0而在xj中为1的属性个数，t是属性值在两个对象中都为0的属性个数。则 ;简单匹