数据挖掘8章聚类2.pptVIP

下载本文档

6
0
约 26页
2017-08-25 发布于云南
举报
版权申诉

数据挖掘8章聚类2.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Chapter 8. 聚类分析什么是聚类分析? 聚类分析中的数据类型主要聚类分析方法分类划分方法（Partitioning Methods）分层方法基于密度的方法基于表格的方法基于模型（Model-Based）的聚类方法异常分析总结划分方法: 基本概念划分方法: 将一个包含n个数据对象的数据库组织成k个划分（k=n），其中每个划分代表一个簇（Cluster）。给定一个k，要构造出k个簇，并满足采用的划分准则：全局最优:尽可能的列举所有的划分；启发式方法: k-平均和k-中心点算法 k-平均 (MacQueen’67):由簇的中心来代表簇； k-中心点或 PAM (Partition around medoids) (Kaufman Rousseeuw’87): 每个簇由簇中的某个数据对象来代表。 K-平均算法给定k，算法的处理流程如下: 1.随机的把所有对象分配到k个非空的簇中； 2.计算每个簇的平均值，并用该平均值代表相应的簇； 3.将每个对象根据其与各个簇中心的距离，重新分配到与它最近的簇中； 4.回到第二步，直到不再有新的分配发生。 K-平均算法例子 K-平均算法优点相对高效的: 算法复杂度O(tkn), 其中n 是数据对象的个数, k 是簇的个数, t是迭代的次数，通常k, t n. 算法通常终止于局部最优解；缺点只有当平均值有意义的情况下才能使用，对于类别字段不适用；必须事先给定要生成的簇的个数；对“噪声”和异常数据敏感；不能发现非凸面形状的数据。 K-平均算法的变种一些变种在下面几个方面有所不同：初始k个平均值的选择；相异度的计算；计算簇的平均值的策略；处理种类字段: k-模算法 (Huang’98) 用模来替代平均值；用新的相异度计算方法来处理类别字段；用基于频率的方法来修改簇的模； k-原型算法：综合k-平均和k-模算法，能同时处理类别字段和数值字段。 K-中心点算法找出簇中位置最中心的对象，即中心点来代表簇 PAM (Partitioning Around Medoids, 1987) 设定一个中心点的初始集合，然后反复的用非中心点对象来替代中心点对象，以改进聚类的质量； PAM 算法在大数据集上效率较低，没有良好的可伸缩性； CLARA (Kaufmann Rousseeuw, 1990) CLARANS (Ng Han, 1994): Randomized sampling PAM (Partitioning Around Medoids) (1987) PAM (Kaufman and Rousseeuw, 1987）用真实的数据对象来代表簇随机选择k个对象作为初始的中心点； Repeat 对每一个由非中心对象h 和中心对象 i, 计算i被h替代的总代价 Tcih 对每一个有h和I组成的对象对 If TCih 0, i 被 h替换然后将每一个非中心点对象根据与中心点的距离分配给离它最近的中心点 Until不发生变化。 PAM Clustering: Total swapping cost TCih=?jCjih CLARA (Clustering Large Applications) (1990) CLARA (Kaufmann and Rousseeuw in 1990) 该算法首先获得数据集的多个采样，然后在每个采样上使用PAM算法，最后返回最好的聚类结果作为输出。优点: 能够处理大数据集。缺点: 效率依赖于采样的大小；如果样本发生偏斜，基于样本的一个好的聚类不一定代表得了整个数据集合的一个好的聚类； CLARANS (“Randomized” CLARA) (1994) CLARANS (A Clustering Algorithm based on Randomized Search) (Ng and Han’94) CLARANS 在搜索的每一步动态的抽取一个样本；聚类过程可以被描述为对一个图的搜索，图中的每个节点是一个潜在的解，即k个中心点的集合；在替换了一个中心点后的结果被称为当前结果的邻居。如果找到了一个局部最优，算法从随即选择的节点开始寻找新的局部最优；比PAM 和 CLARA更有效和有更好的伸缩性；采用聚焦技术和空间数据结构等能进一步提高性能(Ester et al.’95) Chapter 8. Cluster Analysis 什么是聚类分析? 聚类分析中的数据类型主要聚类分析方法分类划分方法（Partitioning Methods）分层方法基于密度的方法基于表格的方法基于模型（Model-Based）的聚类方法异常分析总结层次方法采用距