R中的距离与聚类.doc

  1. 1、本文档共5页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
R中的距离与聚类

R中的距离与聚类 2013-9-3 09:52| 发布者: 天空之城| 查看: 7373| 评论: 0|原作者: 马恩驰|来自: Data Science@马恩驰 摘要: 聚类是建模的起点,在没有目标的前提下,对研究对象按照距离分为不用的组。组内的距离尽可能小,组间距离尽可能大;最常用的两种聚类方法是系统聚类和k-means。 简介: 聚类是建模的起点,在没有目标的前提下,对研究对象按照距离分为不用的组。组内的距离尽可能小,组间距离尽可能大;最常用的两种聚类方法是系统聚类和k-means; 系统聚类是基于距离的聚类,计算量相对较大;相比之下k-means因计算量小,占内存小,方法简单而应用范围更广,尤其是在目前数据量比较大的情况下。 系统聚类: 系统聚类的思想是把每个样本看成一类,计算两两之间的距离,把距离最近的两个样本合并为一个新类,计算新类与其他样本的距离,对距离最近的再次合并,重复此过程,直到所有样本合并为一类;系统聚类的关键点为距离和不同量纲数据的标准化。 系统聚类主要函数介绍: 基于iris数据集的实例: k-means聚类: k-means分类的思想是:先粗略分一下类,然后按照某种最优原则修改不合理的分类,直至分类趋于合理。 (iris.km -kmeans(iris,3)) K-means clustering with 3 clusters of sizes 50, 62, 38 Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 2 5.901613 2.748387 4.393548 1.433871 3 6.850000 3.073684 5.742105 2.071053 ## 聚类后的类标号,因为iris数据按照类别排列,发现2与3类别相对模糊;类别1聚类效果较好 Clustering vector: [1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 [46] 1 1 1 1 1 2 2 3 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 2 2 2 2 2 2 2 2 2 2 2 2 [91] 2 2 2 2 2 2 2 2 2 2 3 2 3 3 3 3 2 3 3 3 3 3 3 2 2 3 3 3 3 2 3 2 3 2 3 3 2 2 3 3 3 3 3 2 3 [136] 3 3 3 2 3 3 3 2 3 3 3 2 3 3 2 ## 基于方差变异分解的思想,组间方差越大效果越好; Within cluster sum of squares by cluster: [1] 15.15100 39.82097 23.87947 (between_SS / total_SS = 88.4 %) ## 聚类结果中的组件,可类似看成list中的元素; Available components: [1] cluster centers totss withinss tot.withinss betweenss [7] size plot(iris[c(Sepal.Length, Sepal.Width)], col = km$cluster) ## 画聚类的中心 points(km$centers[,c(Sepal.Length, Sepal.Width)], col = 1:3,pch = 8, cex=2) 聚类的最终目的是生成优良的”簇“,我理解簇是数据业务层面的理解;做一个好的聚类可能要有多轮循环,基于现有的数据聚类,簇评估及发现线索,基于新发现的线索对数据进行处理再次聚类,这其中可能包含数据指标的再提取、离异点的删除、数据的变换等

文档评论(0)

haihang2017 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档