聚类分析文心.pptVIP

下载本文档

22
0
约1.18万字
约 22页
2018-05-05 发布于四川
举报
版权申诉

聚类分析文心.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

我同样列举了4种比较常见的计算类间距离的公式。设Dpq表示类Gp和类GQ之间的距离。dij表示样品Xi和样品Xj之间的距离。第1，最短距离法。第2，最长距离法。第3，重心法。第4，类平均法。就是把两类之间所有点的距离都计算一遍，然后求平均来作为类与类之间的距离。当然，计算距离的方法还不止这几种，我这里只是列举了一些比较常用，还有一些方法在一般的统计软件都可以看到和使用。虽然这里有很多种计算方法，但是我们在进行分类的时候肯定只能选择一种距离公式了，这个就需要根据实际应用来选择了，后面我还会讲到如何选择距离公式。好了，界定了距离以后，我们开始讲系统聚类分析法。 * 整个分析方法可以分为4步。第一步就是选择变量。是选择用来对样品进行分类的变量。这一步往往容易被人忽视，但是它却是最重要的一步。系统聚类分析法的结果会在很大程度上受所选择的变量影响。如果去掉一些变量，或者增加一些变量，结果会很不同。下面我们来看看变量选择的一般原则，第一点就是选择与所研究问题密切相关的变量，与研究问题不相关的变量就不要选进来了，选进来只会干扰了分类结果。第二，选择具有较强分辨能力的变量，就是说所选择的变量最好具有很好的区分度。再看看变量选择的一般方法，第一，根据经验或者实际需求，人为地挑选变量。第二，就是先用R型聚类分析对大量的变量进行分类，从每一类中选择出主要变量，然后再进行Q型聚类分析。第三种方法同第二种类似，就是先用主成分分析从大量的变量中选择出主要变量，然后再进行Q型聚类分析。 * 选择变量后第二步就是定义距离了。前面我们已经介绍了计算点间距离和类间距离的公式，下面就要要选择合适的公式来应用了。选择点间距离的时候要注意要考虑所选择的点间距离公式在实际应用中有明确的意义。例如，欧氏距离表示非常明确的空间距离，马氏距离表示消除不同量纲影响后的距离。在选择类间距离的时候结合样本量的大小和特点，根据不同计算方法的特点选择合适的类间距离公式。例如，最短距离法太浓缩，最长距离法太扩张，都不大利于把类分开，类平均法比较适中，应用的也最多，就是计算量较大。对于一个问题，我们很难说那种距离公式就是最好的，所以我们一般要试探性的多选择几种距离公式进行分类，然后对聚类分析的结果进行对比分析，以确定最合适的距离公式。 * 第三步是逐类合并，也是系统聚类分析法的核心思想所在。我们来看看逐类合并如何进行的？第一步是对数据进行变换处理。这是统计分析的一个基本步骤，对数据进行标准化等预处理。2.把每个样品看成一类，计算类与类之间的距离，并将距离最近的两类合并成一类。这个很好理解对吧，就是把距离最近的两个样本点合为一类。3.重复第2步，这是什么意思呢？刚刚在第二步里面我们已经有两个样本点合成一类，现在就少了一类对吧，在剩下的类里面再继续计算类与类之间的距离，并并将距离最近的两类合并成一类。这样下去，每次减少一类，直到最后只有一大类为止。4.下面我们看一个简单的例子来解释下这个过程。假设现在有6个样品需要进行分类，只有1个变量，G1=1……。 * 有了树状图以后，第四步就是确定类数了。我们来看看确定类个数的一般方法。……，下面我们来看一个实例分析。 * * 这张表我们在开始时候看过，就是我国16个地区农民在1982年生活消费支出情况的抽样调查数据，其中有6个反应生活消费支出的指标，我们要用这6个指标的观测数据对16个地区进行分类。 * 我们用统计软件SPSS来对这个数据进行聚类分析，看看是如何操作的。第一步就是把数据导入到SPSS表中，选择系统聚类方法，如右图，数据已经按照原表格式导入了SPSS，在SPSS的上面一栏菜单窗口。第二步选择变量。如右图。第三步选择距离公式。 * SPSS运算输出的树状图如右所示。我们还是可以看到有比较明显的聚类现象。如果分成5类的话，……。如果分成2类的话，前3类合并为一类，北京，上海合并为一类。下面我们看看各个类别的生活消费支出有什么区别。 * 看这样一张表，是各个地区的农民生活平均消费水平。可以第一类也就是安徽、福建、江西、黑龙江和第三类也就是河北、河南、山西、内蒙古消费水平是比较低的，属于低消费地区。第二类江苏浙江等地属于中等消费水平地区。第四类和第五类北京和上海就属于高消费地区。由此可见，分出来的类特征还是比较明显的，分类时比较成功的。 * 聚类分析可以应用到各个领域中，相关的研究文献也有很多，这里我列举几种在可能的应用方向。首先在开篇提到的几个问题，我们都可以用聚类分析来处理， * 聚类分析主讲人：某某 2012年6月28日主要内容引言 1 聚类分析方法 2 实例分析 3 聚类分析应用 4 引言你是否想过下面的问题： 1. 我国的东部、中部、西部是如何划分出来的？是否存在某种标准的方法来把我国各省或各市县来