一种新的聚类判别分析框架及其实证研究.docxVIP

下载本文档

0
0
约4.06千字
约 8页
2019-06-20 发布于广东
举报
版权申诉

一种新的聚类判别分析框架及其实证研究.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种新的聚类判别分析框架及其实证研究摘要：在分析经典聚类判别分析方法实质的基础上，提出了一种新的聚类判别分析框架，改进了一种基于样本指标值频度计算的两总体判别分析算法，提高了在对所有参与建立判别模型的样本进行判别时的计算速度；给出了建立在此改进判别分析算法基础上的一种动态聚类判别分析算法的设计，并实现了所有算法。进行相应的实证研究，结果表明以此聚类判别分析框架对给定样本集合进行分析，可以迅速得到多个合理的聚类结果以及对聚类结果的清晰解释，既可以对已有的聚类结果进行验证，又可以进行数据的探索性分析。关键词：聚类分析；判别分析；动态聚类 0引言经典聚类分析算法是基于距离计算的。然而除马氏距离定义外，其他距离定义都存在样本指标的量纲处理问题；除马氏距离和斜交空间距离定义外，其他距离定义都存在样本指标的相关性处理问题；另外，包括马氏距离在内的所有距离定义都存在将用于聚类的指标同等对待的缺点，不能反映不同指标对聚类结果的贡献程度。一般情况下，在确定样本间距离计算方法的基础上，用不同的聚类分析方法得到聚类的结果是不会完全一致的。这是因为在实际应用中，许多对象在不同类之间本身并无清晰的划分。这导致了在既定用于聚类的指标组合的情况下，用不同的聚类方法对同一组样本进行分析会得到不同的聚类结果。如上所述，即使使用同一种聚类方法，有时由于样本的排列顺序不同，也可能导致不同的分类结果。这就提出了对不同的聚类方法进行评价的问题。关于所用方法好坏的评价，现在还没有一个合适的标准。Edwards和CAVALL I sforza (1965)曾建议把样本分成两类，使得两类间的离差平方和最大［1］。Walter也指出，应该寻找使类内差异最小的聚类方法［2］。因此，评价不同聚类方法的一个重要方面，就是看这些方法得到的聚类结果在类内的接近程度和在类间的相隔程度。一个较好的分类方法应该得到类内差异较小、类间差异较大的聚类结果。在实际应用中，一般采用以下两种处理方法：a)根据分类问题本身的专业知识，结合实际需要来选择分类的方法，并确定分类的个数；b)用多种方法对数据进行分析处理，把结果的共性取出来。如果用几种方法的某些结果都一样，则说明这样的聚类确实反映了事物的本质。将有争议的样本暂放一边，或者用其他方法如判别分析进行处理归类。另外，在聚类分析方法既定的情况下，同一组样本采用不同的指标组合进行聚类分析，通常也会得到不同的分类结果。产生不同结果的原因主要是由于不同的指标组合测度是样本间的不同侧面的相似程度，在进行聚类分析时存在指标组合选择的问题。一般是根据聚类的实际需要进行指标的选择，这是一个比较复杂并且带有主观性的问题。实践中，在开始进行聚类分析时，通常是先选择多种指标组合分别进行聚类，然后对聚类分析的结果进行对比分析，以确定出合适的测度指标。判别分析产生于20世纪30年代，是利用已知类别的样本建立判别模型，为未知类别的样本判别的一种统计方法。近年来，判别分析在自然科学、社会学及经济管理学科中都有广泛的应用。判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息，总结出客观事物分类的规律性，建立判别公式和判别准则。当遇到新的样本点时，只要根据总结出来的判别公式和判别准则，就能判别该样本点所属的类别。判别分析按照判别的组数来区分，可以分为两组判别分析和多组判别分析。本文仅研究两组判别分析。在众多的判别分析方法中，最直观的是距离判别法。均数的距离。哪个距离最小就将它判归到哪个总体。所以, 距离判别法的任务就是构造一个恰当的距离函数，通过样本与某类别之间距离的大小判别其所属类别。这里仅讨论两个总体的距离判别法。距离判别只要求知道总体的数字特征, 不涉及总体的分布函数。当参数未知和协方差时，就用样本的均值和协方差矩阵来估计。从距离判别法可以看到判别规则是一个线性函数。由于线性判别函数使用简便，希望能在更一般的情况下建立一种线性判别函数。Fisher判别法由Fisher在1936年提出,是根据方差分析的思想建立起来的一种能较好区分各个总体的线性判别法。该判别方法对总体的分布不作任何要求。 ■本观测数据, 借助于方差分析的思想构造一个线性判别函数：距离判别法是基于距离计算的，用构造线性判别函数方法进行样本判别的Fisher判别法也存在着类似基于距离计算的聚类分析方法当中的不足： a）将总体和样本的多个指标赋予了同等的判别能力，而这与现实是不相符合的，即不同的指标在判别样本的归属时具有不同的判别能力。 b）没有对用于建立判别分析模型的总体指标进行筛选。这在两总体的某指标没有显著差异时进行判别分析的意义不大，误判的概率很大［3,