1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类-lmx

聚类分析;一 按照分类对象不同 (1)Q型聚类(样品聚类):对从实际问题中观测得到n个样品,要根据某种相似性的原则,将这个n样品进行分类. (2)R型聚类(变量聚类):即对所考察的p 个指标的n个观测值,要根据某种相似性的原则将这个p指标进行分类.;二 判断标准;;;(1)所选择的亲疏测度指标在实际应用中应有明确的意义。如在经济变量分析中,常用相关系数表示经济变量之间的亲疏程度。 (2)要综合考虑已对样本观测数据实施了的变换方法和将要采用的聚类分析方法。 如在标准化变换之下,夹角余弦实际上就是相关系数; 如在进行聚类分析之前已经对变量的相关性作了处理,则通常就可采用欧氏距离。 ;样品间或变量间亲疏测度指标的选择是一个比较复杂且带主规性的问题.应根据研究对象的特点作具体分折,选择出合适的亲疏测度指标。 一般在开始进行聚类分析时,不妨试探性地多选择几个亲疏测度指标,分别进行聚类,然后对聚类分析的 结果进行对比分析,以确定出合适的亲疏测度指标。;三 聚类分类及思想;;data=read.table("C:\\Documents and Settings\\LMX\\桌面\\新建 文本文档.txt",head=T) d=dist(scale(data));中心化和标准化;计算欧式距离; > d 1 2 3 4 5 6 2 3.6271606 3 3.7603122 3.1404512 4 1.9959311 1.9557660 2.6138169 5 1.2438688 2.9969325 2.7813907 1.1845817 6 2.4356592 5.8262559 5.1468476 4.1122021 3.2546759 7 0.4587203 3.6271606 3.8020500 2.0987114 1.4398855 2.4139642 ;;m1=hclust(d) plot(m1);例2: p X Y Z 1 28 29 28 2 18 23 18 3 11 22 16 4 21 23 22 5 26 29 26 6 20 23 22 7 16 22 22 8 14 23 24 9 24 29 24 10 22 27 24 d=dist(d1) m1=hclust(m1) plot(m1);; 2 K均值聚类 又称为动态聚类,它的计算方法较为简单,也不需要输入距离矩阵。首先要指定聚类的分类个数N,随机取N个样本作为初始类的中心,计算各样本与类中心的距离并进行归类,所有样本划分完成后重新计算类中心,重复这个过程直到类中心不再变化。 在R中使用kmeans函数进行K均值聚类,centers参数用来设置分类个数。 ;算法 (根据聚类中的均值进行聚类划分的k-means算法。) 输入:聚类个数k,以及包含n个数据对象的数据库 输出:满足平方误差准则最小的k个聚类 处理流程: (1)从n个数据对象任意k个对象作为初始簇中心。 (2)循环下述流程(3)到(4),直到每个聚类不再发生变化为止。 (3)根据每个簇中对象的均值(中心对象),计算每个对象与这些中心对象的距离,并根据最小距离重新对相应对象进行划分。 (4)重新计算每个(有变化)簇的均值。;c1=kmeans(data,3) plot(c1$cluster) ;> c2=kmeans(b[,6:14],3) > c2$cluster ;;d1=dist(scale(b[,6:14])) m1=hclust(d1) plot(m1) ;> d2=dist(scale(bc)) > m2=hclust(d2) > plot(m2) ;> c3=kmeans(bc,3) > c3$cluster SiO2 CaO F

文档评论(0)

dajuhyy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档