- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据的分类—聚类分析;饮料数据(drink.txt );
如何根据以上数据对16种饮料进行分类呢?
对数据进行分类就需要知道距离?你知道那些距离?;如何度量距离远近?;两个距离概念;两个距离概念;向量x=(x1,…, xp)与y=(y1,…, yp)之间的距离或相似系数:;类Gp与类Gq之间的距离Dpq(d(xi,xj)表示点xi∈ Gp和xj ∈ Gq之间的距离);最短距离(Nearest Neighbor)
;最长距离(Furthest Neighbor )
;; 组内平均连接法(Within-group Linkage)
;重心法(Centroid clustering):均值点的距离
;离差平方和法连接;红绿(2,4,6,5)8.75
离差平方和增加8.75-2.5=6.25
黄绿(6,5,1,5)14.75
离差平方和增加14.75-8.5=6.25
黄红(2,4,1,5)10-10=0
故按该方法的连接和黄红首先连接。;
有了上面的点间距离和类间距离的概念,就可以介绍聚类的方法了。这里介绍两个简单的方法。 ;系统聚类法;系统聚类的R实现;;;plot() 画出树状图的格???为
plot(x, labels = NULL, hang = 0.1, axes = TRUE, frame.plot = FALSE, ann = TRUE, main = Cluster Dendrogram, sub = NULL, xlab = NULL, ylab = Height, ...);例1续
读入数据
d-read.table(C:\\Users\\nf\\Desktop\\drink.txt,h=T)
dist()的作用是将原始数据转化为距离结构的矩阵
hc=hclust(dist(d),ave)
Plot(hc);R中有一个确定类个数的函数,rect.hclust()。
rect.hclust(tree, k = NULL, which = NULL, x = NULL, h = NULL, border = 2, cluster = NULL)
Tree是hclust()生成的数据结构。
plclust(hc, hang=-1); re-rect.hclust(hc, k=3)
plclust()类似于plot()
plclust(tree, hang=0.1, unit=FALSE, level=FALSE, hmin=0, square=TRUE, labels=NULL, plot. = TRUE, axes = TRUE, frame.plot = FALSE, ann = TRUE, main = , sub = NULL, xlab=NULL, ylab=Height);动态聚类法(K均值聚类);然后,根据和这三个点的距离远近,把所有点分成三类。再把这三类的中心(均值)作为新的基石或种子(原来 “种子”就没用了),再重新按照距离分类。
如此叠代下去,直到达到停止叠代的要求(比如,各类最后变化不大了,或者叠代次数太多了)。显然,前面的聚类种子的选择并不必太认真,它们很可能最后还会分到同一类中呢。下面用饮料例的数据来做k-均值聚类。
;例1续
动态聚类的函数为kmeans()
Kmeans(x,centers,iter.max=10,nstart=1,algorithm=c(“Hartigan-Wong”,”Lloyd”,”Forgy”,MacQueen”))
Iter.max为最大迭代次数,centers为聚类个数
Algorithm为动态聚类的算法,默认为第一个。
km=kmeans(dist(d),5,20)
sort(km$cluster);SPSS实现(聚类分析);SPSS实现(聚类分析);“冰柱图”(icicle);聚类要注意的问题 ;聚类要注意的问题
您可能关注的文档
最近下载
- 湖南省长沙市长郡中学2024-2025学年高一上学期1月期末考试数学试题(含答案).docx VIP
- 2025年人力资源管理师远程员工的工作过程追踪与信任建立专题试卷及解析.pdf VIP
- 湖南省长沙市长郡中学2024-2025学年高一上学期期末考试生物试卷.docx VIP
- 计算机组成原理(电子科技大学) 中国大学MOOC 慕课 章节测验 答案.pdf VIP
- 小学奥数解题技巧精讲60讲.doc VIP
- SL_T 712-2021CN 河湖生态环境需水计算规范.docx
- 凤蝶阅读题及答案.docx VIP
- 国家开放大学《护理伦理学》形考任务2参考答案.doc VIP
- 上料云梯车安全施工方案.pptx VIP
- 移动式云梯专项施工方案.docx VIP
原创力文档


文档评论(0)