- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第
第8章聚类分析
数据挖掘原理与SPSS Clementine应用宝典
兀昌安主编
邓 松 李文敬 刘海涛 编著
电子工业出版社
第8章聚类分析
主要内容
?聚类分析原理 ?划分聚类方法 ?层次聚类方法
?聚英用算法律[=.
?聚英用算法律
[=.
?基于密度的聚类方法 ?基于网格的聚类方法 ?基于模型的聚类方法 ?高维数据的聚类方法
?模糊聚类FCM
?应用实例分析
第8章聚类分析
第
第8章聚类分析
8.1.1聚类分析介绍
?聚类就是按照事物的某些属性,把事物聚集成类, 使类间的相似性尽可能小,类内相似性尽可能大。
?数据挖掘对聚类的典型要求如下:
-可伸缩性
-处理不同类型属性的能力
-发现任意形状的聚类
-用于决定输入参数的领域知识最小化
-处理噪声数据的能力
8.1.2聚类分析中的数据类型
对象?数据矩阵:用m个变量(也称为属性)来表现n个
对象
xn % ???% 兀21兀22…X2m
TOC \o 1-5 \h \z \o Current Document ? ? ? ?
\o Current Document ? ? ? ?
\o Current Document ? ? ? ?
£1 2???%
?相异度矩阵:存储n个对象两两之间的近似度,通 常用一个维的矩阵表示
■ 0 ■
TOC \o 1-5 \h \z 6/(2,1) 0
d(3,l) d(3,2) 0
? ? ?
? ? ?
? ? ?
d(n,l) d(〃,2) 0
8.1.3区间标度变量
?计算均值绝对偏差
?计算标准化的度量值
-欧几里德距离
-曼哈顿距离
-明考斯基距离
第8章聚类分析
8.1.4二元变量
?简单匹配系数
?Jaccard 系数
?Rao系数
第8章聚类分析
第
第8章聚类分析
8?1?5分类型、序数型变量
?分类变量
?序数型变量
8.1.6向量对象
?夹角余弦
?相关系数
第8章聚类分析
8.2聚类分析常用算法分类
?划分方法
?层次方法
?基于密度的方法
?基于网格的方法
?基于模型的方法
?高维数据的聚类方法
?模糊聚类FCM
第8章聚类分析
第
第8章聚类分析
8.3划分聚类方法
?k-means
k-means算法是基于质心的算法。k-means算法以k为 参数,把n个对象分为k个簇,以使簇内具有较高的相似度, 而簇间的相似度最低。相似度的计算根据一个簇中对象的平 均值(被看作簇的重心)来进行。
Stepl任意选择k个对象作为初始的簇中心;
Step2 repeat;
Step3根据与每个中心的距离,将每个对象赋给最近的簇;
Step4重新计算每个簇的平均值;
Step5 until不再发生变化。
8.3划分聚类方法
?k-medoids
不采用簇中对象的平均值作为参照点,可以选用簇中 位置最中心的对象,即medoido这样划分方法仍然是基于最 小化所有对象与其参照点之间的相异度之和的原则来执行的。
Stepl随机选择k个对象作为初始的代表对象;
指派每个剩余的对象给离它最近的代表对象所代表的簇; 随意地选择一个非代表对象;计算用代替的总代价S
指派每个剩余的对象给离它最近的代表对象所代表的簇; 随意地选择一个非代表对象;
计算用代替的总代价S;
如果,则用替换,形成新的k个代表对象的集合;
Step3
Step4
Step5
Step6
Step7 until不发生变化。
8.4层次聚类方法
?4.1凝聚的和分裂的层次聚类
42
BIRCH:平衡迭代归约和聚类
43
ROCK:分类属性层次聚类算法
44
CURE:使用代表点聚类方法
45
Chameleon:
动态建模层次聚类
8.4.1漠灵聚的和分裂的层次聚类
?凝聚的方法
-首先将每个对象作为单独的一个原子簇
-然后相继地合并相近的对象或原子簇
-直到所有的原子簇合并为一个(层次的最上层),或 者达到一个终止条件
?分裂的方法
-首先将所有的对象置于一个簇中
-在迭代的每一步中,一个簇被分裂为更小的簇,
-直到最终每个对象在单独的一个簇中,或者达到一个 终止条件
凝聚的8.4.1凝聚的和分裂的层次聚类
凝聚的
F
初始
步骤1
步骤2
步骤3
步骤4
步骤4 步骤3步骤2
步骤4 步骤3
步骤2
步骤1
初始
BIRCH:平衡迭代归约和聚类
?BIRCH通过聚类特征(Clustering Feature, CF) 对簇的信息进行汇总描述,然后对簇进行聚类。
?BIRCH算法的主要目标是使I/O时间尽可能小,
-原因在于大型数据集通常不能完全装入内存中。
BIRCH算法通过把聚类分为多个阶段来达到此目的 -首先通过构建CF-树对原数据集进行预聚类 -在前面预聚类的基础上进行聚类
BIRCH:平衡迭代归约和聚类
根层第一层
根层
文档评论(0)