网站大量收购闲置独家精品文档,联系QQ:2885784924

数据挖掘聚类分析课件.ppt

  1. 1、本文档共36页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘聚类分析课件

数据挖掘中的聚类分析算法研究;结构;1.1聚类分析;1.2聚类分析与其他分类或预测的不同;数据挖掘对聚类的典型要求 (1)可伸缩性 可伸缩性是指算法不论对于小数据集还是对于大数据集,都应是有效的。 (2)处理不同字段类型的能力 算法不仅要能处理数值型数据,还要有处理其它类型字段的能力,包括分类/标称类型(categorical/nominal),序数型(ordinal),二元类型(binary),或者这些数据类型的混合。 ;(3)能够发现任意形状的聚类 有些簇具有规则的形状,如矩形和球形。但是,更一般地,簇可以具有任意形状。 (4)用于决定输入参数的领域知识最小化 在聚类分析当中,许多聚类算法要求用户输入一定的参数,如希望簇的数目。聚类结果对于输入参数很敏感,通常参数较难确定,尤其是对于含有高维对象的数据集更是如此。 (5)处理高维数据的能力 既可处理属性较少的数据,又能处理属性较多的数据。很多聚类算法擅长处理低维数据,一般只涉及两到三维,通常最多再加二维的情况下能够很好地判断聚类的质量。 ; (6)能够处理噪声数据 现实世界中的数据库常常包含了孤立点、空缺、未知 数据或有错误的数据。一些聚类算法对于这样的数据敏感,可能导致低质量的聚类结果。所以我们希望算法可以在聚类过程中检测代表噪声和离群的点,然后删除它们或者消除它们的负面影响。 (7)结果对于输入记录顺序不敏感 一些聚类算法对于输入数据的顺序是敏感的。对于同一个数据集合,以不同的顺序提交给同一个算法时,可能产生差别很大的聚类结果,这是我们不希望的。 ;(8)基于约束的聚类 在实际应用当中可能需要在各种约束条件下进行聚类。找到既要满足特定的约束,又要具有良好聚类特性的数据分组是一项具有挑战性的任务。我们希望聚类算法可以在考虑这些限制的情况下,仍具有较好的表现。 (9)可解释性和可用性 聚类的结果最终都是要面向用户的,用户期望聚类得到的信息是可理解和可应用的。 ;聚类分析中的数据结构和数据类型 (1)数据结构 许多基于内存的少类算法选择如下两种有代表性的数据结构。 1)数据矩阵(对象-变量结构) 数据矩阵是一张关系表的形式,每列代表对象的一个属性,每个元组代表一个数据对象。 具有p个属性的n个对象(例如,人可以用年龄,身高,体重,性别,种族等来描述)可以看成如下n×p(n个对象×p个属性)的矩阵。 ; 2)相异度矩阵(对象-对象结构) 它存储n个对象两两之间的差异性,表现形式是n×n维的矩阵。 ; 其中d(i,j)是对象i和对象j之间相异性的量化表示,通常为非负数,且d(i,j)=d(j,i),d(i,i)=。对象i和对象j越相似,则d(i,j)越接近于0,对象i和对象j的差异越大,则d(i,j)越大。相异度矩阵通常用距离公式计算得到。 ;(2)数据类型 聚类分析起源于统计学,传统的分析方法大多是在数值类型数据的基础上研究的。然而数据挖掘的对象复杂多样,要求聚类分析的方法不仅能够对属性为数值类型的数据进行,而且要适应数据类型的变化。 1)区间标度变量 区间标度变量是一个粗略线性标度的连续度量。典型的例子则包括重量和高度,经度和纬度坐标,以及摄氏或华氏温度等。 数据之间纯在差异性,同时多个属性肯那个有不同的度量单位,所以在计算数据相似性之前要进行数据的标准化。 ; 数据标准化处理以后就可以进行属性值的相似性测量,通常是计算对象间的距离。 对于n维向量xi和xj,有以下几种距离函数: 欧氏距离 曼哈顿距离 ;概化的明考斯基(Minkowski)距离 当m=2时,明考斯基D2即为欧氏距离;当m=1时,明考斯基D1即为曼哈顿距离。 ;2)二元变量 二元变量只有两个状态:0和1。其中二元变量又分为对称的二元变量和不对称的二元变量。前者是指变量的两个状态不具有优先权,后者对于不同的状态其重要性是不同的。 对于二元变量,度量两个变量的差异度可以由简单匹配系数(对称的情况)和Jaccard系数(非对称的情况)决定。设两个对象xi和xj,q是属性值在两个对象中都为1的属性个数,r是属性值在xi中为1而在xj中为0的属性个数,s是属性值在xi中为0而在xj中为1的属性个数,t是属性值在两个对象中都为0的属性个数。则 ;简单匹

文档评论(0)

xcs88858 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8130065136000003

1亿VIP精品文档

相关文档