聚类分析课件.pptVIP

下载本文档

10
0
约2.96万字
约 94页
2021-09-10 发布于广东
举报
版权申诉

聚类分析课件.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

K 均值聚类分析 ? 第二步：计算某个样品到各类中心的欧氏平方距离，然后将 ? ? ? 该样品分配给最近的一类。对于样品有变动的类，重新计算它们的中心坐标，为下一步聚类做准备。先计算 A 到两个类的平方距离： 2 2 2 d ( A , ( AB )) ? ( 5 ? 2 ) ? ( 3 ? 2 ) ? 10 2 2 2 d ( A , ( CD )) ? ( 5 ? 1 ) ? ( 3 ? 2 ) ? 61 由于 A 到（ A 、 B ）的距离小于到（ C 、 D ）的距离，因此 A 不用重新分配；计算 B 到两类的平方距离： 2 2 2 d ( B , ( AB )) ? ( ? 1 ? 2 ) ? ( 1 ? 2 ) ? 10 2 2 2 d ( B , ( CD )) ? ( ? 1 ? 1 ) ? ( 1 ? 2 ) ? 9 对 C 、 D 同样（略） K 均值聚类分析 ? 由于 B 到（ A 、 B ）的距离大于到（ C 、 D ）的距离，因此 B 要分配给（ C 、 D ）类，得到新的聚类是（ A ）和（ B 、 C 、 D ） ? 更新中心坐标：聚类（ A ）（ B 、 C 、 D ）中心坐标 X 1 5 -1 X 2 3 -1 K 均值聚类分析 ? 第三步：再次检查每个样品，以决定是否需要重新分类。计算各样品到各中心的距离平方：样品到中心的距离平方聚类 A B C D 0 40 41 89 （ A ） 52 4 5 5 C 、 D ）（ B 、 ? 发现：每个样品都已经分配给距离中心最近的类，聚类过程到此结束 ? 最终得到 K=2 的聚类结果是 A 独自成一类， B 、 C 、 D 聚成一类 K 均值聚类分析 ? 系统聚类与 K 均值聚类都是距离度量类聚类方法 ? 系统聚类对不同的类数产生一系列的聚类结果 ? K — 均值法只能产生指定类数的聚类结果 ? 具体类数的确定？ ? 实践经验的积累（机理研究） ? 借助系统聚类法以一部分样品为对象进行聚类，其结果作为 K — 均值法确定类数的参考 K 均值聚类分析 ? 优点 : 相对有效性 : O ( tkn ), 其中 n 是对象数目 , k 是簇数目 , t 是迭代次数 ; 通常： k , t n . ? 比较 : PAM: O(k(n-k) 2 ), CLARA: O(ks 2 + k(n-k)) ? PAM (Partitioning Around Medoid, 围绕代表点的划分 ) ? CLARA (Clustering LARge Applications) ? 当结果簇是密集的，而簇与簇之间区别明显时，它的效果较好 K 均值聚类分析 ? 弱点 ? 只有在簇的平均值 ( mean) 被定义的情况下才能使用 . 可能不适用于某些应用 ? 涉及有分类属性的数据 ? 需要预先指定簇的数目 k ? 不能处理噪音数据和孤立点 ( outliers ) ? 常常终止于局部最优（初值依赖） . ? 尝试不同的初值 ? 全局最优可以使用诸如模拟退火 ( simulated annealing) 和遗传算法 ( genetic algorithms ) 等技术得到 K 均值聚类分析 ? K 均值方法的变种 , 它们在以下方面有所不同 ? 初始 k 个平均值的选择 ? 距离的度量 ? 计算聚类平均值的策略 ? 处理分类属性 : k- 模 ( k-modes ) 方法 (Huang98) ? 用模 (modes 众数 ) 替代聚类的平均值 ? 使用新的距离度量方法来处理分类对象 ? 用基于频率的方法 ? k- 原型 ( k-prototype ) 方法 : k- 平均和 k- 模的结合 , 处理具有数值和分类属性的数据 R codes 一例一二例二例一 ? 设有 20 个土壤样品分别对 5 个变量的观测数据如表所示，试利用系统聚类法对其进行样品聚类分析。表土壤样本的观测数据样品号 1 2 3 4 5 6 7 8 含沙量淤泥含量粘土含量有机物 X 1 77.3 82.5 66.9 47.2 65.3 83.3