聚类分析在汽车行业的应用研究.doc

下载文档 降价啦

119
0
约1.09万字
约 15页
2018-03-16 发布于湖北
举报
版权申诉
保障服务

聚类分析在汽车行业的应用研究.doc

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

聚类分析在汽车行业的应用研究

聚类分析在汽车行业的应用研究孔尕平（1306122421）杨欢欢（1306122427）一、问题叙述近年来，随着人们生活水平的提高，汽车逐渐进入了人们的日常生活中，因而带动了汽车行业的飞速发展。与此同时，市场上汽车种类繁多，衡量汽车质量的性能指标又多种多样，因此，本研究将通过多元统计方法，探究汽车类型与其性能指标之间的存在的内在联系，并且根据这些指标对各种汽车进行聚类，例如分为质量优、中、良三个等级，可以为广大汽车购买者及销售商提供一定的指导作用。二、数据介绍本数据主要来源于《》，记录了几种车型性能指标的数据，其中包括三、数据处理在进行数据分析之前，首先通过描述统计分析方法，判断市场上汽车的性能指标的大体水平，主要从基本统计量（诸如均值、方差、标准差、极大/小值、偏度、峰度等）的计算和描述开始，并辅助于SPSS提供的图形功能，能够把握数据的基本特征和整体的分布特征。在本案例中，通过比较不同车型（如A100，BMW3，CiAX等）性能指标的均值、极大/小值，可以从总体上判断哪些车型的性能较好，哪些车型的较差。四、分析基本思路聚类分析是依据研究对象的个体特征，对其进行分类的方法，分类在经济、管理、社会学、医学等领域，都有广泛的应用。聚类分析能够将一批样本（或变量）数据根据其诸多特征，按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类，产生多个分类结果。类内部个体特征之间具有相似性，不同类间个体特征的差异性较大。我们对数据进行了基本的描述统计之后，接下来需要对23种车型进行聚类分析，大致分为3-5类，性能从差到优良。在本案例中，我们将采用两种方法进行聚类：一种是系统聚类法，另一种是K-均值法（快速聚类法）。系统聚类法的基本原理：首先将一定数量的样本或指标各自看成一类，然后根据样本（或指标）的亲疏程度，将亲疏程度最高的两类进行合并，然后考虑合并后的类与其他类之间的亲疏程度，再进行合并。重复这一过程，直到将所有的样本（或指标）合并为一类。? 系统聚类分为Q型聚类和R型聚类两种：Q型聚类是对样本进行聚类，它使具有相似特征的样本聚集在一起，使差异性大的样本分离开来；R型聚类是对变量进行聚类，它使差异性大的变量分离开来，相似的变量聚集在一起，这样就可以在相似变量中选择少数具有代表性的变量参与其他分析，实现减少变量个数、降低变量维度的目的。? 在本例中进行的是Q型聚类。? 类与类之间距离的计算方法主要有以下几种：（1）最短距离法（Nearest?Neighbor），是指两类之间每个个体距离的最小值；（2）最长距离法（Farthest?Neighbor），是指两类之间每个个体距离的最大值；（3）组间联接法（Between-groups?Linkage），是指两类之间个体之间距离的平均值；? （4）组内联接（Within-groups?Linkage），是指把两类所有个体之间的距离都考虑在内；? （5）重心距离法（Centroid?clustering），是指两个类中心点之间的距离；? （6）离差平方和法（Ward法），同类样品的离差平方和应当较小，类与类之间的离差平方和应当较大。 K-均值法（又称快速聚类法），是由MacQueen于1967年提出的，它将数据看成K维空间上的点，以距离作为测度个体“亲疏程度”的指标，并通过牺牲多个解为代价换得高的执行效率。但是，K-均值法只能产生指定类数的聚类结果，而类数的确定离不开实践经验的积累。? 快速聚类分析的基本思想是：首先按照一定方法选取一批凝聚点（聚心），再让样本向最近的凝聚点凝聚，形成初始分类，然后再按最近距离原则修改不合理的分类，直到合理为止。因此，在快速聚类中，应首先要求用户自行给出需要聚成多少类，最终也只能输出关于它的唯一解。快速聚类是一个反复迭代的分类过程，在聚类过程中，样本所属的类会不断调整，直到最终达到稳定为止。五、分析过程（一）描述性统计方法在数据编辑窗口的主菜单中选择“分析（A）” “描述统计” “描述性分析”（如下图）打开如下对话框，将左侧框中的所有变量选入右侧框中，单击“选项”按钮，在“选项”对话框中选择所需要分析的统计量，包括均值、标准差、极大值、极小值等，如下图所示：点击“确定”按钮之后，得到分析结果。（二）聚类分析 1.系统聚类法在数据编辑窗口的主菜单中选择“分析（A）” “分类（F）” “系统聚类（H）”，弹出“系统聚类分析”对话框，将“carmark”变量选入“标准个案（C）”中，将其他变量选入“变量框”中，如下图。在“分群”单选框中选中“个案”，表示进行的是Q型聚类。在“输出”复选框中选中“统计量”和“图”，表示要输出的结果包含以上两项。单击“统计量(S)”按钮，在“系统聚类分析：统计