- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
R中的距离与聚类
R中的距离与聚类
2013-9-3 09:52| 发布者: 天空之城| 查看: 7373| 评论: 0|原作者: 马恩驰|来自: Data Science@马恩驰
摘要: 聚类是建模的起点,在没有目标的前提下,对研究对象按照距离分为不用的组。组内的距离尽可能小,组间距离尽可能大;最常用的两种聚类方法是系统聚类和k-means。
简介:
聚类是建模的起点,在没有目标的前提下,对研究对象按照距离分为不用的组。组内的距离尽可能小,组间距离尽可能大;最常用的两种聚类方法是系统聚类和k-means;
系统聚类是基于距离的聚类,计算量相对较大;相比之下k-means因计算量小,占内存小,方法简单而应用范围更广,尤其是在目前数据量比较大的情况下。
系统聚类:
系统聚类的思想是把每个样本看成一类,计算两两之间的距离,把距离最近的两个样本合并为一个新类,计算新类与其他样本的距离,对距离最近的再次合并,重复此过程,直到所有样本合并为一类;系统聚类的关键点为距离和不同量纲数据的标准化。
系统聚类主要函数介绍:
基于iris数据集的实例:
k-means聚类:
k-means分类的思想是:先粗略分一下类,然后按照某种最优原则修改不合理的分类,直至分类趋于合理。
(iris.km -kmeans(iris,3))
K-means clustering with 3 clusters of sizes 50, 62, 38
Cluster means:
Sepal.Length Sepal.Width Petal.Length Petal.Width
1 5.006000 3.428000 1.462000 0.246000
2 5.901613 2.748387 4.393548 1.433871
3 6.850000 3.073684 5.742105 2.071053
## 聚类后的类标号,因为iris数据按照类别排列,发现2与3类别相对模糊;类别1聚类效果较好
Clustering vector:
[1] 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
[46] 1 1 1 1 1 2 2 3 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 2 2 2 2 2 2 2 2 2 2 2 2
[91] 2 2 2 2 2 2 2 2 2 2 3 2 3 3 3 3 2 3 3 3 3 3 3 2 2 3 3 3 3 2 3 2 3 2 3 3 2 2 3 3 3 3 3 2 3
[136] 3 3 3 2 3 3 3 2 3 3 3 2 3 3 2
## 基于方差变异分解的思想,组间方差越大效果越好;
Within cluster sum of squares by cluster:
[1] 15.15100 39.82097 23.87947
(between_SS / total_SS = 88.4 %)
## 聚类结果中的组件,可类似看成list中的元素;
Available components:
[1] cluster centers totss withinss tot.withinss betweenss
[7] size
plot(iris[c(Sepal.Length, Sepal.Width)], col = km$cluster)
## 画聚类的中心
points(km$centers[,c(Sepal.Length, Sepal.Width)], col = 1:3,pch = 8, cex=2)
聚类的最终目的是生成优良的”簇“,我理解簇是数据业务层面的理解;做一个好的聚类可能要有多轮循环,基于现有的数据聚类,簇评估及发现线索,基于新发现的线索对数据进行处理再次聚类,这其中可能包含数据指标的再提取、离异点的删除、数据的变换等
您可能关注的文档
- 加氣块生产工艺中的主要技术指标.doc
- 加氣砼可研报告.doc
- LiLiUSBCreator29.doc
- Linux下Apache服务器的安装和配置.doc
- 加油站便利店营销策略研究.PDF
- LC-5510型液相色谱仪工作站说明书发布版.doc
- LGO基线解算操作手册.doc
- linux过程2考试答案.doc
- 加油站油氣回收系统设计.doc
- Linux静态&动态链接库的创建和使用.doc
- 《GB/T 32151.42-2024温室气体排放核算与报告要求 第42部分:铜冶炼企业》.pdf
- GB/T 32151.42-2024温室气体排放核算与报告要求 第42部分:铜冶炼企业.pdf
- GB/T 38048.6-2024表面清洁器具 第6部分:家用和类似用途湿式硬地面清洁器具 性能测试方法.pdf
- 中国国家标准 GB/T 38048.6-2024表面清洁器具 第6部分:家用和类似用途湿式硬地面清洁器具 性能测试方法.pdf
- 《GB/T 38048.6-2024表面清洁器具 第6部分:家用和类似用途湿式硬地面清洁器具 性能测试方法》.pdf
- 《GB/T 18238.2-2024网络安全技术 杂凑函数 第2部分:采用分组密码的杂凑函数》.pdf
- GB/T 18238.2-2024网络安全技术 杂凑函数 第2部分:采用分组密码的杂凑函数.pdf
- 《GB/T 17215.686-2024电测量数据交换 DLMS/COSEM组件 第86部分:社区网络高速PLCISO/IEC 12139-1配置》.pdf
- GB/T 13542.4-2024电气绝缘用薄膜 第4部分:聚酯薄膜.pdf
- 《GB/T 13542.4-2024电气绝缘用薄膜 第4部分:聚酯薄膜》.pdf
文档评论(0)