- 1、本文档共15页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
聚类分析在汽车行业的应用研究
聚类分析在汽车行业的应用研究
孔尕平(1306122421) 杨欢欢(1306122427)
一、问题叙述
近年来,随着人们生活水平的提高,汽车逐渐进入了人们的日常生活中,因而带动了汽车行业的飞速发展。与此同时,市场上汽车种类繁多,衡量汽车质量的性能指标又多种多样,因此,本研究将通过多元统计方法,探究汽车类型与其性能指标之间的存在的内在联系,并且根据这些指标对各种汽车进行聚类,例如分为质量优、中、良三个等级,可以为广大汽车购买者及销售商提供一定的指导作用。
二、数据介绍
本数据主要来源于《》,记录了几种车型性能指标的数据,其中包括
三、数据处理
在进行数据分析之前,首先通过描述统计分析方法,判断市场上汽车的性能指标的大体水平,主要从基本统计量(诸如均值、方差、标准差、极大/小值、偏度、峰度等)的计算和描述开始,并辅助于SPSS提供的图形功能,能够把握数据的基本特征和整体的分布特征。
在本案例中,通过比较不同车型(如A100,BMW3,CiAX等)性能指标的均值、极大/小值,可以从总体上判断哪些车型的性能较好,哪些车型的较差。
四、分析基本思路
聚类分析是依据研究对象的个体特征,对其进行分类的方法,分类在经济、管理、社会学、医学等领域,都有广泛的应用。聚类分析能够将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类,产生多个分类结果。类内部个体特征之间具有相似性,不同类间个体特征的差异性较大。
我们对数据进行了基本的描述统计之后,接下来需要对23种车型进行聚类分析,大致分为3-5类,性能从差到优良。在本案例中,我们将采用两种方法进行聚类:一种是系统聚类法,另一种是K-均值法(快速聚类法)。
系统聚类法的基本原理:首先将一定数量的样本或指标各自看成一类,然后根据样本(或指标)的亲疏程度,将亲疏程度最高的两类进行合并,然后考虑合并后的类与其他类之间的亲疏程度,再进行合并。重复这一过程,直到将所有的样本(或指标)合并为一类。?
系统聚类分为Q型聚类和R型聚类两种:Q型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来;R型聚类是对变量进行聚类,它使差异性大的变量分离开来,相似的变量聚集在一起,这样就可以在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数、降低变量维度的目的。?
在本例中进行的是Q型聚类。?
类与类之间距离的计算方法主要有以下几种:
(1)最短距离法(Nearest?Neighbor),是指两类之间每个个体距离的最小值;
(2)最长距离法(Farthest?Neighbor),是指两类之间每个个体距离的最大值;
(3)组间联接法(Between-groups?Linkage),是指两类之间个体之间距离的平均值;?
(4)组内联接(Within-groups?Linkage),是指把两类所有个体之间的距离都考虑在内;?
(5)重心距离法(Centroid?clustering),是指两个类中心点之间的距离;?
(6)离差平方和法(Ward法),同类样品的离差平方和应当较小,类与类之间的离差平方和应当较大。
K-均值法(又称快速聚类法),是由MacQueen于1967年提出的,它将数据看成K维空间上的点,以距离作为测度个体“亲疏程度”的指标,并通过牺牲多个解为代价换得高的执行效率。但是,K-均值法只能产生指定类数的聚类结果,而类数的确定离不开实践经验的积累。?
快速聚类分析的基本思想是:首先按照一定方法选取一批凝聚点(聚心),再让样本向最近的凝聚点凝聚,形成初始分类,然后再按最近距离原则修改不合理的分类,直到合理为止。因此,在快速聚类中,应首先要求用户自行给出需要聚成多少类,最终也只能输出关于它的唯一解。快速聚类是一个反复迭代的分类过程,在聚类过程中,样本所属的类会不断调整,直到最终达到稳定为止。
五、分析过程
(一)描述性统计方法
在数据编辑窗口的主菜单中选择“分析(A)” “描述统计” “描述性分析”(如下图)
打开如下对话框,将左侧框中的所有变量选入右侧框中,单击“选项”按钮,在“选项”对话框中选择所需要分析的统计量,包括均值、标准差、极大值、极小值等,如下图所示:
点击“确定”按钮之后,得到分析结果。
(二)聚类分析
1.系统聚类法
在数据编辑窗口的主菜单中选择“分析(A)” “分类(F)” “系统聚类(H)”,弹出“系统聚类分析”对话框,将“carmark”变量选入“标准个案(C)”中,将其他变量选入“变量框”中,如下图。在“分群”单选框中选中“个案”,表示进行的是Q型聚类。在“输出”复选框中选中“统计量”和“图”,表示要输出的结果包含以上两项。
单击“统计量(S)”按钮,在“系统聚类分析:统计
文档评论(0)