- 1、本文档共36页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘聚类分析课件
数据挖掘中的聚类分析算法研究;结构;1.1聚类分析;1.2聚类分析与其他分类或预测的不同;数据挖掘对聚类的典型要求
(1)可伸缩性
可伸缩性是指算法不论对于小数据集还是对于大数据集,都应是有效的。
(2)处理不同字段类型的能力
算法不仅要能处理数值型数据,还要有处理其它类型字段的能力,包括分类/标称类型(categorical/nominal),序数型(ordinal),二元类型(binary),或者这些数据类型的混合。
;(3)能够发现任意形状的聚类
有些簇具有规则的形状,如矩形和球形。但是,更一般地,簇可以具有任意形状。
(4)用于决定输入参数的领域知识最小化
在聚类分析当中,许多聚类算法要求用户输入一定的参数,如希望簇的数目。聚类结果对于输入参数很敏感,通常参数较难确定,尤其是对于含有高维对象的数据集更是如此。
(5)处理高维数据的能力
既可处理属性较少的数据,又能处理属性较多的数据。很多聚类算法擅长处理低维数据,一般只涉及两到三维,通常最多再加二维的情况下能够很好地判断聚类的质量。
;(6)能够处理噪声数据 现实世界中的数据库常常包含了孤立点、空缺、未知 数据或有错误的数据。一些聚类算法对于这样的数据敏感,可能导致低质量的聚类结果。所以我们希望算法可以在聚类过程中检测代表噪声和离群的点,然后删除它们或者消除它们的负面影响。 (7)结果对于输入记录顺序不敏感 一些聚类算法对于输入数据的顺序是敏感的。对于同一个数据集合,以不同的顺序提交给同一个算法时,可能产生差别很大的聚类结果,这是我们不希望的。 ;(8)基于约束的聚类
在实际应用当中可能需要在各种约束条件下进行聚类。找到既要满足特定的约束,又要具有良好聚类特性的数据分组是一项具有挑战性的任务。我们希望聚类算法可以在考虑这些限制的情况下,仍具有较好的表现。
(9)可解释性和可用性
聚类的结果最终都是要面向用户的,用户期望聚类得到的信息是可理解和可应用的。
;聚类分析中的数据结构和数据类型
(1)数据结构
许多基于内存的少类算法选择如下两种有代表性的数据结构。
1)数据矩阵(对象-变量结构)
数据矩阵是一张关系表的形式,每列代表对象的一个属性,每个元组代表一个数据对象。
具有p个属性的n个对象(例如,人可以用年龄,身高,体重,性别,种族等来描述)可以看成如下n×p(n个对象×p个属性)的矩阵。
;
2)相异度矩阵(对象-对象结构)
它存储n个对象两两之间的差异性,表现形式是n×n维的矩阵。
;
其中d(i,j)是对象i和对象j之间相异性的量化表示,通常为非负数,且d(i,j)=d(j,i),d(i,i)=。对象i和对象j越相似,则d(i,j)越接近于0,对象i和对象j的差异越大,则d(i,j)越大。相异度矩阵通常用距离公式计算得到。
;(2)数据类型
聚类分析起源于统计学,传统的分析方法大多是在数值类型数据的基础上研究的。然而数据挖掘的对象复杂多样,要求聚类分析的方法不仅能够对属性为数值类型的数据进行,而且要适应数据类型的变化。
1)区间标度变量
区间标度变量是一个粗略线性标度的连续度量。典型的例子则包括重量和高度,经度和纬度坐标,以及摄氏或华氏温度等。
数据之间纯在差异性,同时多个属性肯那个有不同的度量单位,所以在计算数据相似性之前要进行数据的标准化。
; 数据标准化处理以后就可以进行属性值的相似性测量,通常是计算对象间的距离。
对于n维向量xi和xj,有以下几种距离函数:
欧氏距离
曼哈顿距离
;概化的明考斯基(Minkowski)距离
当m=2时,明考斯基D2即为欧氏距离;当m=1时,明考斯基D1即为曼哈顿距离。
;2)二元变量
二元变量只有两个状态:0和1。其中二元变量又分为对称的二元变量和不对称的二元变量。前者是指变量的两个状态不具有优先权,后者对于不同的状态其重要性是不同的。
对于二元变量,度量两个变量的差异度可以由简单匹配系数(对称的情况)和Jaccard系数(非对称的情况)决定。设两个对象xi和xj,q是属性值在两个对象中都为1的属性个数,r是属性值在xi中为1而在xj中为0的属性个数,s是属性值在xi中为0而在xj中为1的属性个数,t是属性值在两个对象中都为0的属性个数。则
;简单匹
您可能关注的文档
- 拼音复习3课件.ppt
- 授权案例分析课件.ppt
- 拿破仑详细全面介绍课件.ppt
- 拓展篇--极速60秒图片课件.ppt
- 挑战杯申报书说明课件.ppt
- 探索勾股定理(一)演示文稿课件.ppt
- 排队论PPT课件.ppt
- 推动社会主义文化大发展大繁荣体制、队伍与组织保证课件.ppt
- 掌上城市产品方案课件.ppt
- 探索初中物理教学有效性之我见--桂小玲课件.ppt
- 讲稿:深入理解“五个注重”把握进一步深化改革统筹部署以钉钉子精神抓好落实.pdf
- 副市长在2025年全市医疗工作会议上的讲话.docx
- 2025年市县处级以上党委(党组)理论学习中心组专题学习计划.docx
- 市民族宗教事务局党组书记、局长2024年度民主生活会个人对照检视发言材料.docx
- 烟草局党组书记2024年度抓基层党建工作述职报告.docx
- (汇编)学习2025年全国教育工作会议精神心得体会发言心得感悟.pdf
- 汇编学习领会在二十届中纪委四次全会上的重要讲话精神心得体会.pdf
- 在2025年镇安全生产、消防安全和生态环境保护第一次全体会议上的讲话提纲.docx
- 书记干部座谈会上的讲话+纪委全会上的讲话.pdf
- 党课:从毛泽东诗词中感悟共产党人初心使命.docx
文档评论(0)