第十章聚类技术分析.pptVIP

下载本文档

1
0
约 21页
2016-08-12 发布于湖北
举报
版权申诉

第十章聚类技术分析.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第十章聚类分析分类物以类聚、人以群分；但根据什么分类呢？如要想把中国的县分类，就有多种方法：可以按照自然条件来分，比如考虑降水、土地、日照、湿度等，也可考虑收入、教育水准、医疗条件、基础设施等指标；既可以用某一项来分类，也可以同时考虑多项指标来分类。什么是一个好的分类方法? 一个好的聚类方法要能产生高质量的聚类结果——小分类（族），这些小的分类要具备以下两个特点：高的簇内相似性低的簇间相似性聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现；对一个数据文件，既可以对变量进行分类，也可以对个案来分类。本章要介绍的分类的方法称为聚类分析（cluster analysis）。对变量的聚类称为R型聚类，而对观测值聚类称为Q型聚类。它们在数学上是无区别的。饮料数据（drink.txt ） 16种饮料的热量、咖啡因、钠及价格四种变量进行聚类应明确两个距离概念: 一个是点和点之间的距离一个是类和类之间的距离注: 当然还有一些和距离相反但起同样作用的概念，比如相似性等，两点越相似度越大，就相当于距离越短。点间距离有很多定义方式。最简单的是欧氏距离。类间距离是基于点间距离定义的：比如两类之间最近点之间的距离可以作为这两类之间的距离，也可以用两类中最远点之间的距离或各类的中心之间的距离来作为类间距离。注: 各种点间距离和类间距离的选择是可以指定的。不同的选择的结果会不同，但一般不会差太多。事先不用确定分多少类：分层聚类事先要确定分多少类：k-均值聚类(快速聚类) 分层聚类又称系统聚类（hierarchical cluster）。开始时，有多少点就是多少类。它第一步先把最近的两类（点）合并成一类，然后再把剩下的最近的两类合并成一类；这样下去，每次都少一类，直到最后只有一大类为止。越是后来合并的类，距离就越远。分层聚类分析的操作以drink.sav数据为例，在SPSS中选择Analyze－Classify－Hierarchical Cluster, 然后把calorie（热量）、caffeine（咖啡因）、sodium（钠）、price（价格）选入Variables框在Cluster选Cases（这是Q型聚类：对观测值聚类），如果要对变量聚类（R型聚类）则选Variables, Display选型 Statistics——聚类分析的统计量 Plot——结果分析中的图形，有冰柱图（Icicle）和树状图（Dendrgram）等 Statistics框 Agglomoration（凝聚顺序表），显示每个阶段中结合个案的距离及每个引入聚类的个案（变量）的最终聚类水平。 Proximity（相似性矩阵），显示项目间距离或相似性 Cluster Membership（聚类成员），显示各个案分配到1个或一个以上级别的聚类组合。 Method框，选项聚类分析中计算距离的方法。 Cluster框给出得是计算类间距离的方法，系统默认的是组间平均链锁法。 Measure框给出得是计算样本距离的方法， Interval——连续型变量 Count——顺序水准或名义水准 Binary——适用与二值变量 Plots框（系统聚类分析：图形），用于选择冰柱图（Icicle）和树状图（Dendrgram）等图形。 Save框（系统聚类：保存变量），用于选择要保存的变量。 None；Single ； Rangge of Solution 输出结果聚类要注意的问题聚类结果主要受所选择的变量影响。如果去掉一些变量，或者增加一些变量，结果会很不同。相比之下，聚类方法的选择则不那么重要了。因此，聚类之前一定要目标明确向量x=(x1,…, xp)与y=(y1,…, yp)之间的距离或相似系数: 类Gp与类Gq之间的距离Dpq(d(xi,xj)表示点xi∈ Gp和xj ∈ Gq之间的距离) * 聚类分析有了上面的点间距离和类间距离的概念，就可以介绍聚类的方法了。这里介绍两个简单的方法 “冰柱图”(icicle) 欧氏距离: Euclidean 平方欧氏距离: Squared Euclidean 夹角余弦(相似系数1) : cosine Pearson correlation (相似系数2): Chebychev: Maxi|xi-yi| Block(绝对距离): Si|xi-yi| Minkowski: 当变量的测量值相差悬殊时,要先进行标准化. 如R为极差, s 为