实验聚类分析.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
实验聚类分析

实训5 聚类分析 实验目的: 学习利用SPSS进行聚类分析 实验内容: 聚类分析的意义;层次聚类的原理;欧氏距离的计算;组间平均链锁距离;树形图的读解。 (一)聚类分析 1.聚类分析的意义 聚类分析是统计学 研究“物以类聚”问题的多元统计方法。聚类分析在统计分析的应用领域已得到了极为广泛的应用。 “物以类聚”问题在经济社会研究中十分常见。例如,市场营销中的市场细分和可户细分问题。大型商厦收集到了客户人口特征、消费行为和喜好方面的数据,并希望对这些客户进行特征分析。可从客户分类入手,根据客户的年龄、职业、收入、消费金额、喜好等方面进行单变量或多变量的客户分组。这种分组是极为常见的客户细分方式,但存在的不足是客户群划分带有明显的主观色彩,需要丰富的行业经验才能够比较合理和理想的客户+细分,否则得到的分组可能无法充分反映和展现客户的特点,主要表现在,同一客户细分段的客户在某些特征方面并不相似,而不同客户细分段中的客户在某些特征方面却又很相似。因此,这种客户细分并没有真正起到划分客户群的作用。为解决该问题,会希望从数据本身出发,充分利用数据进行客户的客观分组,使诸多特征有相似性的客户能被分在同一组内,而不相似的客户分到另一些组中。这时便可采用聚类分析的方法。 再例如,学校里有些同学经常在一起,关系比较密切,而他们与另一些同学却很少来往,关系比较疏远。究其原因可能会发现,经常在一起的同学的家庭情况、性格、学习成绩、课余爱好等方面有许多共同之处,而关系较疏远的同学在这些方面有较大的差异性。为了研究家庭情况、性格、学习成绩、课余爱好等是否会成为划分学生小群体的主要决定因素,可以从这些方面的数据入手,对数据进行客观分组,然后比较所得的分组是否与实际吻合。对同学的客观分组可采用聚类分析方法。 聚类分析正是一种建立分类的多元统计分析方法,它能够将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类,产生多个分类结果。类内部的个体在特征上具有相似性,不同类间个体特征的差异性较大。 2.聚类分析中“亲疏程度”的度量方法 聚类分析中,个体之间的“亲疏程度”是极为重要的,它将直接影响最终的聚类结果。对“亲疏程度”的测度一般有两个角度:第一,个体间的相似程度;第二,个体间的差异程度。衡量个体间的相似程度通常采用简单相关系数。个体间差异程度通常采用通过某种距离来测度,这里将对此做重点讨论。 为定义个体间的距离应先将每个样本数据看成k维空间上的一个点。计算出点与点之间的某种距离,点与点之间的距离越小,意味着它们越“亲密”,越有可能聚成一类。点与点之间的距离越大,意味着它们越“疏远”,越有可能分别属于不同的类。 定距型变量个体间距离的计算方式 如果所涉及的k个变量都是定距型变量,那么个体间距离的定义通常有欧氏距离、平方欧氏距离、切比雪夫距离、Block距离、明考斯基距离等,而我们主要掌握欧氏距离和平方欧氏距离的计算。 欧氏距离 两个体(x,y)间欧氏距离是两个体k个变量值之差的平方和的平方根,数学定义为: 表1商厦的客户评分数据 编号 购物环境 服务质量 A商厦 73 68 B商厦 66 64 C商厦 84 82 D商厦 91 88 E商厦 94 90 例,A商厦与B商厦间的欧氏距离是 平方欧氏距离 两个体(x,y)间的平方欧氏距离是两个体k个变量值之差的平方和,其数学定义为: 3.聚类分析的几点说明 (1)所选择的变量应符合聚类的要求 聚类分析是在所选变量的基础上对样本数据进行分类,因此分类结果是各个变量综合计算的结果。在选择参与聚类分析的变量时,应注意所选变量是否符合聚类的要求。 例如,如果希望依照学校的科研情况对高校进行分类,那么可以选择参加科研的人数、 年投入经费、立项课题数、支出经费、科研成果费、获奖数等变量,而不选择诸如在校学生人数、校园面积、年用水量等变量。因为它们不符合聚类的要求,分类的结果也就无法真实反映科研分类的情况。 (2)各变量的变量值不应有数量级上的差异 聚类分析是以各种距离来度量个体间的“亲疏”程度的。数量级对距离产生较大的影响,并影响最终的聚类结果。 表2 高校科研的三个样本数据 学校 参加科研人数 投入经费 立项课题数 1 410 4380000 19 2 336 1730000 21 3 490 220000 8 如果分别以“元”和“万元”为计量单位计算两两个体间的欧氏距离,结果如下: 表3 三个高校科研的两两距离距阵 样本的欧氏距离 元 万元 (1,2) 265000 81.623 (1,3) 218000 193.7000 (2,3) 47000 254.897 由上表可知,以“元”为计量单位时,样本2和3的距离最小,关系最“亲

文档评论(0)

panguoxiang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档