聚类分析学习文档精选班.docxVIP

下载本文档

5
0
约1.35万字
约 17页
2020-12-24 发布于天津
举报
版权申诉

聚类分析学习文档精选班.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

精品文档精品文档聚类分析学习聚类分析聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域，包括数学，计算机科学，统计学，生物学和经济学。在不同的应用领域，很多聚类技术都得到了发展，这些技术方法被用作描述数据，衡量不同数据源间的相似性，以及把数据源分类到不同的簇中。区别聚类与分类的不同在于，聚类所要求划分的类是未知的。聚类是将数据分类至环同的类或者簇这样的一个过程，所以同一个簇中的对象有很大的相似性，而不同簇间的对象有很大的相异性。从统计学的观点看，聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中，如SPSS SAS 等。从机器学习的角度讲，簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同，无监督学习不依赖预先定义的类或带类标记的训练实例，需要由聚类学习算法自动确定标记，而分类学习的实例或数据对象有类别标记。聚类是观察式学习，而不是示例式的学习。聚类分析是一种探索性的分析，在分类的过程中，人们不必事先给出一个分类的标准，聚类分析能够从样本数据出发，自动进行分类。聚类分析所使用方法的不同，常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析，所得到的聚类数未必一致。从实际应用的角度看，聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况，观察每一簇数据的特征，集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。定义依据研究对象(样品或指标)的特征，对其进行分类的方法，减少研究对象的数目。各类事物缺乏可靠的历史资料，无法确定共有多少类别，目的是将性质相近事物归入一类。各指标之间具有一定的相关关系。聚类分析(cluster analysis) 是一组将研究对象分为相对同质的群组(clusters) 的统计分析技术。聚类分析区别于分类分析 (classification analysis) ，后者是有监督的学习。变量类型：定类变量、定量(离散和连续)变量聚类方法层次聚类(Hierarchical Clustering ) 合并法、分解法、树状图非层次聚类划分聚类、谱聚类聚类方法特征： ? 聚类分析简单、直观。 ? 聚类分析主要应用于探索性的研究，其分析的结果可以提供多个可能的解，选择最终的解需要研究者的主观判断和后续的分析； ? 不管实际数据中是否真正存在不同的类别，利用聚类分析都能得到分成若干类别的解； ? 聚类分析的解完全依赖于研究者所选择的聚类变量，增加或删除一些变量对最终的解都可能产生实质性的影响。 ? 研究者在使用聚类分析时应特别注意可能影响结果的各个因素。 ■ 异常值和特殊的变量对聚类有较大影响当分类变量的测量尺度不一致时，需要事先做标准化处理。当然，聚类分析不能做的事情是：自动发现和告诉你应该分成多少个类一一属于非监督类分析方法期望能很清楚的找到大致相等的类或细分市场是不现实的；样本聚类，变量之间的关系需要研究者决定；不会自动给出一个最佳聚类结果；我这里提到的聚类分析主要是谱系聚类（ hierarchical clustering ）和快速聚类（K-means）、两阶段聚类（Two-Step）；根据聚类变量得到的描述两个个体间（或变量间）的对应程度或联系紧密程度的度量。可以用两种方式来测量： 1、采用描述个体对（变量对）之间的接近程度的指标，例如“距离，“距离越小的个体（变量）越具有相似性。 2、采用表示相似程度的指标，例如“相关系数，“相关系数越大的个体（变量）越具有相似性。、欧等;计算聚类距离指标 D（distance）的方法非常多：按照数据的不同性质，可选用不同的距离指标。欧氏距离、欧等; 氏距离的平方（Squared Euclidean distance）、曼哈顿距离（Block）、切比雪夫距离（Chebychev distance）、卡方距离（Chi-Square measure）相似性也有不少，主要是皮尔逊相关系数了！ ? 聚类变量的测量尺度不同，需要事先对变量标准化； ? 聚类变量中如果有些变量非常相关，意味着这个变量的权重会更大 ? 欧式距离的平方是最常用的距离测量方法； ? 聚类算法要比距离测量方法对聚类结果影响更大； ? 标准化方法影响聚类模式： ? 变量标准化倾向产生基于数量的聚类； ? 样本标准化倾向