- 1、本文档共93页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第五讲聚类分析(SPSS应用)
zf zf 第三章 聚类分析 (Cluster Analysis) 3.1 聚类分析的基本思想 一、什么是聚类分析? 聚类分析(P54) 是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。 将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。 聚类分析的目的(P54) 使类内对象的同质性最大化和类间对象的异质性最大化。 三:分类包括: (1)已知道类的数目,各类特征(如分布规律或知道各类的训练样本),目的是要将另一些要解决的问题进行归属于哪一类-----------判别分析。 (2)不知分几类,也不知类的特征-------------------------聚类分析。 聚类分析的应用:无处不在 早在孩提时代,人就通过不断改进下意识中的聚类模式来学会如何区分猫和狗,动物和植物 谁经常光顾商店,谁买什么东西,买多少? 按忠诚卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量分类 这样商店可以…. 识别顾客购买模式(如喜欢一大早来买酸奶和鲜肉,习惯周末时一次性大采购) 刻画不同的客户群的特征(用变量来刻画,就象刻画猫和狗的特征一样) 为什么这样分类?(分类的好处) 因为每一个类别里面的人消费方式都不一样,需要针对不同的人群,制定不同的关系管理方式,以提高客户对公司商业活动的参与率。 挖掘有价值的客户,并制定相应的促销策略: 如,对经常购买酸奶的客户 对累计消费达到12个月的老客户 针对潜在客户派发广告,比在大街上乱发传单命中率更高,成本更低! 谁是银行信用卡的黄金客户? 利用储蓄额、刷卡消费金额、诚信度等变量对客户分类,找出“黄金客户”! 这样银行可以…… 制定更吸引的服务,留住客户!比如: 一定额度和期限的免息透资服务! 百盛的贵宾打折卡! 在他或她生日的时候送上一个小蛋糕! 例1 对10位应聘者做智能检验。3项指标X,Y和Z分别表示数学推理能力,空间想象能力和语言理解能力。其得分如下,选择合适的统计方法对应聘者进行分类。 例如当我们对企业的经济效益进行评价时,建立了一个由多个指标组成的指标体系,由于信息的重叠,一些指标之间存在很强的相关性,所以需要将相似的指标聚为一类,从而达到简化指标体系的目的。 三、聚类分析类型及方法 1、聚类分析的类型有: 对样本分类,称为Q型聚类分析 对变量分类,称为R型聚类分析 Q型聚类是对样本进行聚类,它使具有相似性特征的样本聚集在一起,使差异性大的样本分离开来。 R型聚类是对变量进行聚类,它使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的。 2、聚类分析的方法: 系统聚类(层次聚类) 非系统聚类(非层次聚类) 系统聚类法包括:凝聚方式聚类、分解方式聚类 非系统聚类法包括:模糊聚类法、K-均值法(快速聚类法)等等 3.2 相似性度量 1、样本或变量的相似性程度的数量指标: (1)相似系数 性质越接近的变量或样品,它们的相似系数越接近于1或一l,而彼此无关的变量或样品它们的相似系数则越接近于0,相似的为一类,不相似的为不同类; (2)距离 它是将每一个样品看作p维空间的一个点,并用某种度量方法测量点与点之间的距离,距离较近的归为一类,距离较远的点应属于不同的类。 样本分类(Q型聚类)常以距离刻画相似性 指标分类(R型聚类)常以相似系数刻画相似性 距离和相似系数有着各种不同的定义,而这些定义与变量类型有着非常密切的关系。 变量可分为定性变量和定量变量。若按测量尺度的不同可以分为: (1)间隔尺度变量:变量用连续的量来表示,如长度、重量、速度、温度等。 (2)有序尺度变量:变量度量时不用明确的数量表示,而是用等级来表示,如产品分为一等品、二等品、三等品等有次序关系。 (3)名义尺度变量:变量用既没有数量关系也没有次序关系,只有一些特性状态,如性别、职业、产品的型号等。 一、间隔尺度变量的相似性度量 1、距离 设有n个样本单位,每个样本测有p个指标(变量),原始资料阵为: 每个样本都可以看成p维空间中的一点,n个样本就是p维空间中的n个点。 第i个样本与第j个样本之间的距离记为 聚类过程中,相距较近的点归为一类,相距较远
文档评论(0)