- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
K 均值聚类分析 ? 第二步:计算某个样品到各类中心的欧氏平方距离,然后将 ? ? ? 该样品分配给最近的一类。对于样品有变动的类,重新计算 它们的中心坐标,为下一步聚类做准备。 先计算 A 到两个类的平方距离: 2 2 2 d ( A , ( AB )) ? ( 5 ? 2 ) ? ( 3 ? 2 ) ? 10 2 2 2 d ( A , ( CD )) ? ( 5 ? 1 ) ? ( 3 ? 2 ) ? 61 由于 A 到( A 、 B )的距离小于到( C 、 D )的距离,因此 A 不用重新分配; 计算 B 到两类的平方距离: 2 2 2 d ( B , ( AB )) ? ( ? 1 ? 2 ) ? ( 1 ? 2 ) ? 10 2 2 2 d ( B , ( CD )) ? ( ? 1 ? 1 ) ? ( 1 ? 2 ) ? 9 对 C 、 D 同样(略) K 均值聚类分析 ? 由于 B 到( A 、 B )的距离大于到( C 、 D )的距离,因此 B 要 分配给( C 、 D )类,得到新的聚类是( A )和( B 、 C 、 D ) ? 更新中心坐标: 聚类 ( A ) ( B 、 C 、 D ) 中心坐标 X 1 5 -1 X 2 3 -1 K 均值聚类分析 ? 第三步:再次检查每个样品,以决定是否需要重新分类。计 算各样品到各中心的距离平方: 样品到中心的距离平方 聚类 A B C D 0 40 41 89 ( A ) 52 4 5 5 C 、 D ) ( B 、 ? 发现:每个样品都已经分配给距离中心最近的类,聚类过 程到此结束 ? 最终得到 K=2 的聚类结果是 A 独自成一类, B 、 C 、 D 聚成 一类 K 均值聚类分析 ? 系统聚类与 K 均值聚类都是距离度量类聚类方法 ? 系统聚类对不同的类数产生一系列的聚类结果 ? K — 均值法只能产生指定类数的聚类结果 ? 具体类数的确定? ? 实践经验的积累(机理研究) ? 借助系统聚类法以一部分样品为对象进行聚类,其结果作为 K — 均值法确定类数的参考 K 均值聚类分析 ? 优点 : 相对有效性 : O ( tkn ), 其中 n 是对象数目 , k 是簇数目 , t 是迭代次数 ; 通常: k , t n . ? 比较 : PAM: O(k(n-k) 2 ), CLARA: O(ks 2 + k(n-k)) ? PAM (Partitioning Around Medoid, 围绕代表点的划分 ) ? CLARA (Clustering LARge Applications) ? 当结果簇是密集的,而簇与簇之间区别明显时,它的效果 较好 K 均值聚类分析 ? 弱点 ? 只有在簇的平均值 ( mean) 被定义的情况下才能使用 . 可 能不适用于某些应用 ? 涉及有分类属性的数据 ? 需要预先指定簇的数目 k ? 不能处理噪音数据和孤立点 ( outliers ) ? 常常终止于 局部最优( 初值依赖 ) . ? 尝试不同的初值 ? 全局最优 可以使用诸如 模拟退火 ( simulated annealing) 和 遗 传算法 ( genetic algorithms ) 等技术得到 K 均值聚类分析 ? K 均值方法的变种 , 它们在以下方面有所不同 ? 初始 k 个平均值的选择 ? 距离的度量 ? 计算聚类平均值的策略 ? 处理分类属性 : k- 模 ( k-modes ) 方法 (Huang98) ? 用模 (modes 众数 ) 替代聚类的平均值 ? 使用新的距离度量方法来处理分类对象 ? 用基于频率的方法 ? k- 原型 ( k-prototype ) 方法 : k- 平均和 k- 模的结合 , 处理具有数 值和分类属性的数据 R codes 一 例一 二 例二 例 一 ? 设有 20 个土壤样品分别对 5 个变量的观测数据如表所示,试 利用系统聚类法对其进行样品聚类分析。 表 土壤样本的观测数据 样品号 1 2 3 4 5 6 7 8 含沙量 淤泥含量 粘土含量 有机物 X 1 77.3 82.5 66.9 47.2 65.3 83.3
文档评论(0)