聚类分析学习文档精选班.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
精品文档 精品文档 聚类分析学习 聚类分析 聚类分析指将物理或抽象对象的集合 分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。 聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学, 计算机科学,统计学,生物学和经济学。在不同的 应用领域,很多聚类技术都得到了发展,这些 技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。 区别 聚类与分类的不同在于,聚类所要求划分的类是未知的。 聚类是将数据分类至环同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。 从统计学的观点看,聚类分析是通过 数据建模 简化数据的一种方法。传统的统计聚类分析方法包括 系统聚类 法、分解法、加入法、动态聚 类法、有序样品聚类、有重叠聚类和模糊聚类等。 采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析 软件包中,如SPSS SAS 等。 从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的 无监督学习过程。与分类不同, 无监督学习不依赖预先定义的类或带类标记的 训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或 数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。 聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚 类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。 从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的 特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他 算法(如分类和定性归纳算法)的预处理 步骤。 定义 依据研究对象(样品或指标)的特征,对其进行分类的方法,减少研究对象的数目。 各类事物缺乏可靠的历史资料,无法确定共有多少类别,目的是将性质相近事物归入一类。 各指标之间具有一定的相关关系。 聚类分析(cluster analysis) 是一组将研究对象分为相对同质的群组(clusters) 的统计分析技术。 聚类分析区别于分类分析 (classification analysis) ,后者是有监督的学习。 变量类型:定类变量、定量(离散和连续)变量 聚类方法 层次聚类(Hierarchical Clustering ) 合并法、分解法、树状图 非层次聚类 划分聚类、谱聚类 聚类方法特征: ? 聚类分析简单、直观。 ? 聚类分析主要应用于探索性的研究,其分析的结果可以提供多个可能的解,选择最终的解需要研究者的主观判断和后续的分 析; ? 不管实际数据中是否真正存在不同的类别,利用聚类分析都能得到分成若干类别的解; ? 聚类分析的解完全依赖于研究者所选择的聚类变量,增加或删除一些变量对最终的解都可能产生实质性的影响。 ? 研究者在使用聚类分析时应特别注意可能影响结果的各个因素。 ■ 异常值和特殊的变量对聚类有较大影响 当分类变量的测量尺度不一致时,需要事先做标准化处理。 当然,聚类分析不能做的事情是: 自动发现和告诉你应该分成多少个类一一属于非监督类分析方法 期望能很清楚的找到大致相等的类或细分市场是不现实的; 样本聚类,变量之间的关系需要研究者决定; 不会自动给出一个最佳聚类结果; 我这里提到的聚类分析主要是谱系聚类( hierarchical clustering )和快速聚类(K-means)、两阶段聚类(Two-Step); 根据聚类变量得到的描述两个个体间(或变量间)的对应程度或联系紧密程度的度量。 可以用两种方式来测量: 1、采用描述个体对(变量对)之间的接近程度的指标,例如“距离,“距离越小的个体(变量)越具有相似性。 2、采用表示相似程度的指标,例如“相关系数,“相关系数越大的个体(变量)越具有相似性。 、欧等;计算聚类 距离指标 D(distance)的方法非常多:按照数据的不同性质,可选用不同的距离指标。欧氏距离 、欧 等; 氏距离的平方(Squared Euclidean distance) 、曼哈顿距离(Block)、切比雪夫距离 (Chebychev distance) 、卡方距离(Chi-Square measure) 相似性也有不少,主要是皮尔逊相关系数了! ? 聚类变量的测量尺度不同,需要事先对变量标准化; ? 聚类变量中如果有些变量非常相关,意味着这个变量的权重会更大 ? 欧式距离的平方是最常用的距离测量方法; ? 聚类算法要比距离测量方法对聚类结果影响更大; ? 标准化方法影响聚类模式: ? 变量标准化倾向产生基于数量的聚类; ? 样本标准化倾向

文档评论(0)

kunpengchaoyue + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档