关于两步聚类分析方法的理论和应用研究综述..doc

下载文档

7
0
约4.88千字
约 5页
2017-01-13 发布于重庆
举报
版权申诉
保障服务

关于两步聚类分析方法的理论和应用研究综述..doc

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

关于两步聚类分析方法的理论和应用研究综述.

关于两步聚类分析方法的理论和应用研究综述摘要：两步聚类分析方法是近年来才发展起来的聚类方法的一种，它主要用于处理解决海量数据，复杂类别结构时的聚类分析问题，尤其是连续变量和离散变量的混合数据。它分为两大步骤，包括预聚类和正式聚类。在实践中主要解决群体划分、用户或消费者行为细分等问题。但是目前在国内，由于该方法使用范围较小，且缺乏较为详细的介绍，本文就该方法的理论和应用方面作一具体的介绍。关键字：两步聚类分析方法分层聚类市场细分 BIC准则一、引言聚类分析是依照研究对象的个体特征，对其进行分类的多元统计分析方法。具体说来就是，将一批样本或变量的诸多特征按照在性质上的亲疏程度，在没有先验知识的情况下进行自动分类，产生多个分类结果。在聚类分析中，我们常用的聚类方法有快速聚类和层次聚类。其中层次聚类容易受到极值的影响，并且计算复杂速度慢不适合大样本聚类；快速聚类虽然速度快，但是其分类指标要求是定距变量，而实际研究中，有很多的定类变量，如性别、学历、职业、重复购买的可能性等多个与研究目的紧密相关的指标无法直接参与运算，而大大限制了它的使用范围。在此情况下，两步聚类法作为一种较为综合的聚类方法，并能解决上述问题，成为近几年比较常用的方法之一。法与其他传统的聚类技术有显著的区别，它拥有如下三个有利特征：1、能用于处理基于分类变量和连续变量的聚类问题；2、能自动选择聚类数；3、能高效处理大规模数据量的文件。二、基本原理两步聚类分析法采用似然距离度量来处理离散变量和连续变量。并且，模型中的每项连续变量都假设为正态分布状态，每项离散变量都假设为多项分布状态。在这种假定下，两步聚类按照两个步骤完成聚类。首先，通过构建和修改聚类特征树对记录进行初步归类；然后，对这些初步分类的结果再次进行聚类，由于此时的预聚类的数量要远远小于原始数据的数量，在这一阶段使用传统的聚类方法就可以处理了。其中，第一个步骤叫预聚类过程，它针对每一个记录，都要从根开始进入聚类特征数，并依照节点中条目信息的指引找到最接近的子节点，直到到达叶子节点为止。如果这一纪录与叶子节点中的距离小于临界值，那么它进入该子节点，并且子节点的聚类特征得到更新，反之，该纪录会重新生成一个新的叶子节点。如果这时子节点的数目已经大于指定的最大聚类数量，则聚类特征树会通过调整距离临界值的方式重新构建。当所有的记录通过上面的方式进入聚类特征树，预聚类过程也就结束了，子节点的数量就是预聚类数量。第二个步骤叫正式聚类过程，利用层次聚类方法对聚类特征树上的每个叶结点进行组合。采用层次聚类方法可以产生一组不同聚类数的聚类方案。然后，根据聚类准则，贝叶斯 (BIC)或者Akaike(AIC)准则来对各种聚类方案进行比较选择，选定最佳聚类方案。在这两个步骤中都采用了传统的距离测度的方法，主要有欧式距离和对数似然距离。欧氏距离主要针对连续变量，它的计算公式为：其中设第i和 j 个样品的观测值分别为，。对数似然距离能处理连续变量和离散变量，计算似然对数时连续变量需要满足正态分布，离散变量满足多项式分布，而且它假定变量之间彼此独立。它的计算公式为：其中， i，s分别表示分类i和分类s，表示分类i和分类s合并形成的类，j表示第j个观测样本，表示样本观测值中离散变量的类别，表示对应样本观测值中连续变量的方差的极大似然估计值，对应样本观测值中离散变量的属性值概率的极大似然估计值。在这个过程中，通过贝叶斯 (BIC)或者Akaike(AIC)准则，计算不同聚类类别的BIC或AIC的值，以及类间最短距离的变化，从而来选择最优的聚类类别数。一般来说，BIC值或AIC值越小表示该聚类模型越好，即相应聚类数越优。假设聚类数为k，则BIC和AIC的计算公式如下：其中，v表示第v个聚类类别，表示聚类过程中使用的连续变量的总数，表示聚类过程中使用的离散变量的总数，第k个离散变量的编号。三、实证研究为了更好地展示两步聚类分析方法在实际中的应用，特别是针对含有连续变量和离散变量的混合数据，我们搜集相关数据，来研究我国东部地区工业发展情况的类别划分、区域布局。数据来源于中经网统计数据库，选取的对象为北京市、天津市、河北省、辽宁省、上海市、江苏省、浙江省、福建省、山东省、广东省、广西壮族自治区等我国东部地区11个省、直辖市、自治区，选取指标为2008年这些地区的生产总值、工业企业单位数、工业总产值、工业企业资产合计、企业所有者权益、工业企业全部从业人员年平均人数等，考虑到两步聚类分析的条件(各个连续性变量间独立分布，分类变量问也为独立分布)，通过初步对这些指标的聚类和相关分析并结合专业知识，最后确定将工业企业单位数、工业总产值、工业企业资产合计、企业所