- 1、本文档共67页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第十章 聚类分析;10.1 聚类分析的一般问题;聚类分析的应用;例如,学校里有些同学经常在一起,关系比较亲密,而他们与另某些同学却极少来往,关系比较疏远。究其原因可能会发觉,经常在一起的同学的家庭情况、性格、学习成绩、课余爱好等方面有许多共同之处,而关系比较疏远的同学在这些方面有较大的差别性。为了研究家庭情况、性格、学习成绩、课余爱好等是否会成为划分学生小群体的主要决定原因,能够从有关这些方面的数据入手,进行客观分组,然后比较所得的分组是否与实际相吻合。对学生的客观分组就可采用聚类分析措施。;例:下表是同一批客户对经常光顾的五座商场在购物环境和服务质量两方面的平均得分,现希望根据这批数据将五座商场分类。;聚类分析中,个体之间的“亲疏程度”是极为主要的,它将直接影响最终的聚类成果。对“亲疏”程度的测度一般有两个角度:第一,个体间的相同程度;第二,个体间的差别程度。衡量个体间的相同程度一般可采用简朴有关系数或等级有关系数。个体间的差别程度一般经过某种距离来测度。
为定义个体间的距离应先将每个样本数据看成k维空间的一种点,一般,点与点之间的距离越小,意味着他们越“亲密”,越有可能聚成一类,点与点之间的距离越大,意味着他们越“疏远”,越有可能分别属于不同的类。;?;8;9;实例计算;绝对值距离;Euclidian距离的平方;Euclidian距离;明氏(Minkowski )距离;明氏距离的缺陷;?;17;18;所选择的变量应符合聚类的要求:所选变量应能够从不同的侧面反应我们研究的目的;
各变量的变量值不应有数量级上的差别(对数据进行原则化处理):聚类分析是以多种距离来度量个体间的“亲疏”程度的,从上述多种距离的定义看,数量级将对距离产生较大的影响,并影响最终的聚类成果。
对投入经费分别以“元”和“十万元”为计量单位,计算两两学校之间的欧式距离:;20;10.2 层次聚类;凝聚方式聚类:其过程是,首先,每个个体自成一类;然后,按照某种措施度量全部个体间的亲疏程度,并将其中最“亲密”的个体聚成一小类,形成n-1个类;接下来,再次度量剩余个体和小类间???亲疏程度,并将目前最亲密的个体或小类再聚到一类;反复上述过程,直到全部个体聚成一种大类为止。这种聚类方式对n个个体经过n-1步可凝聚成一大类。
分解方式聚类:其过程是,首先,全部个体都属一大类;然后,按照某种措施度量全部个体间的亲疏程度,将大类中彼此间最“疏远”的个体分离出去,形成两类(其中一类只有一种个体);接下来,再次度量类中剩余个体间的亲疏程度,并将最疏远的个体再分离出去;反复上述过程,不断进行类分解,直到全部个体自成一类为止。这种聚类方式对涉及n个个体的大类经过n-1步可分解成n个个体。;SPSS中提供了多种度量个体与小类、小类与小类间“亲疏程度”的措施。与个体间“亲疏程度”的测度措施类似,应首先定义个体与小类、小类与小类的距离。距离小的关系亲密,距离大的关系疏远。这里的距离是在个体间距离的基础上定义的,常见的距离有:;近来邻居(Nearest Neighbor)距离:个体与小类中每个个体距离的最小值。
最远邻居(Furthest Neighbor )距离:个体与小类中每个个体距离的最大值。
组间平均链锁(Between-groups linkage)距离:个体与小类中每个个体距离的平均值。
组内平均链锁(Within-groups linkage)距离:个体与小类中每个个体距离以及小类内各个体间距离的平均值。;5个商厦,D和E的距离最小,现将它们聚为一种小类O={D, E}
A、B、C与O的近来邻居距离:26.907、34.655、9.22
A、B、C与O的最远邻居距离:30.414、38.21、12.806
A、B、C与O的组间平均链锁距离:(26.907+30.414)/2、(34.655+38.21)/2、(9.22+12.806)/2
A、B、C与O的组内平均链锁距离:(26.907+30.414+3.606)/3、(34.655+38.21+3.606)/3、(9.22+12.806+3.606)/3;6个民族的粗死亡率与期望寿命;哈萨克与藏族的距离最短,最先合并形成新类CL7;;;;;谱系图不显示实际距离,显示0-25的百分比距离;33;商厦评分.sav ;35; 2、把参加层次聚类分析的变量选到【变量】框中。
3、把一种字符型变量作为标识变量选到【个案标注根据】框中,它将大大增强聚类分析成果的可读性。
4、在【聚类】框中选择聚类类型。其中【个案】表达进行Q型聚类(默认类型);【变量】表达进行R型聚类。
5、在【显示】框中选择输出内容。其中【统计】表达输出聚类分析的有关统计量;【图】表达输出聚类分析的有关图形。; 6、单击【措施】按钮指定距离的计算措施。;【
文档评论(0)