聚类分析2015.07.16.pptVIP

下载本文档

16
0
约3.49千字
约 70页
2016-12-01 发布于湖北
举报
版权申诉

聚类分析2015.07.16.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

离散变量频数表的图形表示连续变量在各个类别中的误差图 * 系统聚类法 Hierarchical Cluster 系统聚类法优点：既可以对观测量（样品）也可对变量进行聚类，既可以连续变量也可以是分类变量，提供的距离计算方法和结果显示方法也很丰富。系统聚类法缺点：不适合大样本数据。 K-均值聚类分析 K-means Cluster 又称为快速样本聚类法，是非系统聚类中最常用的聚类法。运用该方法对数据进行分析时，要考虑到数据的量纲差异。 K-均值聚类分析 K-means Cluster K-均值聚类法的步骤：数据标准化处理：存储中间过程数据数据标准化处理，并存储。指定5类收敛标准值存储最终结果输出情况，在数据文件中（QCL-1、QCL-2）初始聚心选项，输出方差分析表初始聚类中心表具体城市看后表最终聚类中心表聚类结果：QCL-1说明聚类结果，QCL-2说明聚类的长度情况 K-均值聚类分析 K-means Cluster 优点：是占内存少、计算量小、处理速度快，特别适合大样本的聚类分析。缺点：应用范围有限，要求用户制定分类数目(要告知)，只能对观测量（样本）聚类，而不能对变量聚类，且所使用的聚类变量必须都是连续性变量。两步聚类法 TwoStep Cluster 一种探索性的聚类方法，是随着人工智能的发展起来的智能聚类方法中的一种。用于解决海量数据或具有复杂类别结构的聚类分析问题。简单介绍基本原理分两步进行第一步：预聚类。对记录进行初始的归类，用户自定义最大类别数。通过构建和修改特征树（CT Free）完成。第二步：正式聚类。对第一步完成的初步聚类进行再聚类并确定最终的聚类方案，系统根据一定的统计标准确定聚类的类别数目。两步聚类法输出各变量在聚类中比重图输出出聚类饼分图每个变量做一张条图每一各类别做两张,分别为连续与离散聚类重要性测度 1、质心表和频数表 2、聚类分析表 3、自动聚类结果表聚类数目数值越小效果越好 BIC相邻两项差值看数据的峰值，看聚类效果。4、8、10、14类。 BIC准则-Schwartz Bayesian Criterion 相似度分析我们所研究的指标或数据之间存在不同程度的相似性。各个类别的性质或特性已知判别分析分类各个类别的性质或特性未知聚类分析聚类分析聚类分析根据分类对象的不同，聚类分析（cluster analysis）可以分成两种类型。对变量的聚类称为R型聚类，而对观测值（或样本）聚类称为Q型聚类。这两种聚类在数学上是对称的，没有什么不同。聚类分析把分类对象按一定规则分成若干类，这些类非事先给定的，而是根据数据特征确定的。在同一类中这些对象在某种意义上趋向于彼此相似，而在不同类中趋向于不相似。 Q型聚类分析的主要作用： ⒈可以综合利用多个变量的信息对样本进行分析。 ⒉分类结果直观，聚类谱系图清楚地表现数值分类结果。 ⒊聚类分析所得到的结果比传统分类方法更细致、全面、合理。 R型聚类分析的主要作用： ⒈不但可以了解个别变量之间的亲疏程度，而且可以了解各个变量组合之间的亲疏程度。 ⒉根据变量的分类结果以及它们之间的关系，可以选择主要变量进行Q型聚类分析或回归分析。（R2为选择标准）聚类分析按照分类方法可分为以下三类： 1、系统聚类法------（分层聚类）系统聚类法是应用最广泛的一种（Hierarchical Cluster过程） 1）聚类原则：都是相近的聚为一类，即距离最近或最相似的聚为一类。 2）系统聚类法可以用于样本聚类（Q）型，也可以用于变量聚类（R型）。 2、K-均值聚类法-----（ K-中心聚类法）是一种快速聚类法（K-means Cluster) 3、两步聚类法-----一种探索性的聚类方法（TwoStep Cluster） 1、系统聚类法系统聚类法是目前使用最多的一种聚类方法。它是先将每一个样本或指标看做一类，然后逐渐合并，直至合并为一类的一种合并法。最终可以按照需要来决定分多少类，每类有多少样本（指标）。系统聚类方法的一般步骤：（1）定义样本之间的距离，以及类与类之间的距离；（2）令每个观测记录各成一类；（3）计算类与类之间的距离，并将距离最近的两个类合并成一个类，类的数目减1；（4）如果当前类的数目大于1，转至第3步；（5）结束聚类过程，