数据挖掘8章聚类3演示教学.ppt

  1. 1、本文档共118页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第八章 聚类分析;8.1什么是聚类分析?;聚类的常规应用 ;什么是一个好的聚类方法?;数据挖掘对聚类的典型要求:;8.2 聚类分析中的数据类型两种数据结构;评价聚类质量;聚类分析中的数据类型;区间标度变量;计算对象之间的相异度;当q=2时, d 就成为欧几里德距离: 距离函数有如下特性: d(i,j) ? 0 d(i,i) = 0 d(i,j) = d(j,i) d(i,j) ? d(i,k) + d(k,j) 可以根据每个变量的重要性赋予一个权重;二元变量;二元变量;二元变量;二元变量的相异度计算;标称变量(Nominal Variables);序数型变量;序数型变量;比例标度型变量(Ratio-scaled variable);混合类型的变量(230页);混合类型的变量;8.3主要聚类分析方法分类;8.4 划分方法(232页);K-平均算法;K-平均算法;K-平均算法;K-平均算法的变种;K-中心点算法;PAM (Partitioning Around Medoids) (1987);PAM Clustering: Total swapping cost TCih=?jCjih;CLARA (Clustering Large Applications) (1990);CLARANS (“Randomized” CLARA) (1994);8.5 分层方法;AGNES (Agglomerative Nesting);A Dendrogram Shows How the Clusters are Merged Hierarchically;DIANA (Divisive Analysis);层次方法的主要缺点: 没有良好的伸缩性: 时间复杂度至少是 O(n2) 一旦一个合并或分裂被执行,就不能修复; 综合层次聚类和其它的聚类技术: BIRCH (1996): uses CF-tree and incrementally adjusts the quality of sub-clusters CURE (1998): selects well-scattered points from the cluster and then shrinks them towards the center of the cluster by a specified fraction CHAMELEON (1999): hierarchical clustering using dynamic modeling;BIRCH (1996);Clustering Feature Vector;CF Tree;CURE (Clustering Using REpresentatives );Drawbacks of Distance-Based Method;Cure: The Algorithm;Data Partitioning and Clustering;Cure: Shrinking Representative Points;K-modes(补充);相异度度量;数据集的模(mode);K模算法;8.6 基于密度的方法 将簇看作是数据空间中被低密度区域分割开的高密度区域。 优点:可发现任意形状的聚;DBSCAN(基于高密度连接区域的密度聚类方法);定义;定义(续);DBSCAN基本思想;DBSCAN算法;不足和改进;图示;OPTICS;引入两个新概念;图示;OPTICS算法;寻找簇;不同密度、形状、大小的簇;参数的影响;确定参数;DENCLUE;数学基础;影响函数;梯度和密度吸引点;爬山算法;对一个2维数据集的可能的密度函数;簇;Chapter 8. Cluster Analysis ;8.7 基于网格的方法 ;STING;主要思想;统计信息(1);统计信息(2);统计信息(3);自顶向下地回答查询;优缺点;Wavecluster(小波变换);小波变换的原理;Wavecluster 分类算法;量化;图示;加类标签,查找表;特性;多分辨率;任意形状的簇的发现;小波变换的优点;CLIQUE;主要步骤;Salary (10,000);有效性和缺点;Chapter 8. Cluster Analysis ;8.8基于模型的聚类方法;统计学方法;分类效用(Category Utility);COBWEB:分类树;分类树的节点插入;优缺点;神经网络方法;竞争学习;输入模式 ;自组织特征映射;神经元网络的结构;输入层: 接受多维输入模式,每个输入模式即一个向量 输入层的每个神经元代表输入模式的一个维 输入层的神经元把它得到的输入向量传给竞争层 竞争层: 竞争层的神经元接受来自输入层向量的加权和 每个神经元有它的邻域,包括一组其它的神经元 给定一

文档评论(0)

youngyu0318 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档