R中的距离与聚类.doc

下载文档

6
0
约1.81千字
约 5页
2017-03-23 发布于重庆
举报
版权申诉
保障服务

R中的距离与聚类.doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

R中的距离与聚类

R中的距离与聚类 2013-9-3 09:52| 发布者: 天空之城| 查看: 7373| 评论: 0|原作者: 马恩驰|来自: Data Science@马恩驰摘要: 聚类是建模的起点，在没有目标的前提下，对研究对象按照距离分为不用的组。组内的距离尽可能小，组间距离尽可能大；最常用的两种聚类方法是系统聚类和k-means。简介：聚类是建模的起点，在没有目标的前提下，对研究对象按照距离分为不用的组。组内的距离尽可能小，组间距离尽可能大；最常用的两种聚类方法是系统聚类和k-means；系统聚类是基于距离的聚类，计算量相对较大；相比之下k-means因计算量小，占内存小，方法简单而应用范围更广，尤其是在目前数据量比较大的情况下。系统聚类：系统聚类的思想是把每个样本看成一类，计算两两之间的距离，把距离最近的两个样本合并为一个新类，计算新类与其他样本的距离，对距离最近的再次合并，重复此过程，直到所有样本合并为一类；系统聚类的关键点为距离和不同量纲数据的标准化。系统聚类主要函数介绍：基于iris数据集的实例： k-means聚类： k-means分类的思想是：先粗略分一下类，然后按照某种最优原则修改不合理的分类，直至分类趋于合理。 (iris.km -kmeans(iris,3)) K-means clustering with 3 clusters of sizes 50, 62, 38 Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 2 5.901613 2.748387 4.393548 1.433871 3 6.850000 3.073684 5.742105 2.071053 ## 聚类后的类标号，因为iris数据按照类别排列，发现2与3类别相对模糊；类别1聚类效果较好 Clustering vector: [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 [46] 1 1 1 1 1 2 2 3 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 2 2 2 2 2 2 2 2 2 2 2 2 [91] 2 2 2 2 2 2 2 2 2 2 3 2 3 3 3 3 2 3 3 3 3 3 3 2 2 3 3 3 3 2 3 2 3 2 3 3 2 2 3 3 3 3 3 2 3 [136] 3 3 3 2 3 3 3 2 3 3 3 2 3 3 2 ## 基于方差变异分解的思想，组间方差越大效果越好； Within cluster sum of squares by cluster: [1] 15.15100 39.82097 23.87947 (between_SS / total_SS = 88.4 %) ## 聚类结果中的组件，可类似看成list中的元素； Available components: [1] cluster centers totss withinss tot.withinss betweenss [7] size plot(iris[c(Sepal.Length, Sepal.Width)], col = km$cluster) ## 画聚类的中心 points(km$centers[,c(Sepal.Length, Sepal.Width)], col = 1:3,pch = 8, cex=2) 聚类的最终目的是生成优良的”簇“，我理解簇是数据业务层面的理解；做一个好的聚类可能要有多轮循环，基于现有的数据聚类，簇评估及发现线索，基于新发现的线索对数据进行处理再次聚类，这其中可能包含数据指标的再提取、离异点的删除、数据的变换等