定向判别分析新算法及应用-集美大学计算机工程学院.DOC

下载文档

2
0
约8.41千字
约 6页
2017-08-12 发布于天津
举报
版权申诉
保障服务

定向判别分析新算法及应用-集美大学计算机工程学院.DOC

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

定向判别分析新算法及应用-集美大学计算机工程学院

定向判别分析新算法及应用① 丁跃潮万春孙扬 (集美大学计算机工程学院, 福建, 厦门361021) [摘要] 本文介绍多元有序数据定向判别分析新方法的原理、建模流程、应用流程和应用实例。这种判别分析将分类建模与判别归类分开。新方法用多组或逐步判别分析对多元有序数据建模，应用时根据应用领域的知识对样本归属作初步定向，然后选择模型的相关局部进行判别归类。这种方法解决了由于时间序列多元数据周期性造成的样本分类颠倒问题，为时间序列数据的分类和预测开辟了新途径，在实际应用中取得了良好的效果，解决了重大难题。 [关键词] 判别分析多元数据定向判别建模最优分割 [中图分类号]TP301.6; O21; TP311.1 [文献标识码] A 0引言判别分析是根据多指标来判断个体所属类别的一种多元统计分析方法，其本质是利用多指标进行综合判断。根据变量取舍情况又分为多组判别和逐步判别 [1][2][3]。目前，在经济、气象、地质、冶金、生物、农业和医学等需要处理多元数据的诸多领域得到广泛应用。笔者在这些领域的应用中，对逐步判别分析方法进行扩充，提出了二阶判别[4]、定向判别和有序判别等新方法，这里引入其中一种新的分析方法——定向判别，以解决有序样本建模分类和判别预测的问题，并为数据挖掘提供新的途径。 1逐步判别分析原理简介对于一个多元数据矩阵，在数据库领域表现为多字段二维表。假设有来自G个母体的n个已知分类样本，每个样本有m个变量，则在数据库中加上样品标识和已知分类，共有m+2个字段、n条记录。每个样本被看着是m维欧氏空间R上的一个点，每个母体都是R中的一个子空间Rg，这些子空间是互相排斥的，组成了R。需要找出一个办法，即找到判别函数，把空间R划分为G个子空间Rg(g=1,2,…,G)。已知的样本有了空间归属和函数，就能对未知归属的样本进行判别，确定其归属，即判别归类或预测。人们总是希望用较少的变量去划分空间R，因为采集数据记录时，字段越少越好，成本越低。这就需要衡量每个变量参与划分G个母体的能力。这就需要用F检验，给出引入变量的F值和剔除变量的F值，作为引入和剔除变量的门限值。在一个母体内样本间的差异应当较小，不同母体的样本差异应当较大。根据Wilks准则，组内离差越小、组间离差越大，越有利于G个母体的分类。通过计算组间离差B和组内离差W，然后进行F检验，就可以确定变量的取舍。逐步引入和剔除，最终得到区分能力较大的变量组合。求得区分能力显著的k个变量组合后，计算判别系数，最终建立G个子空间的判别函数： g=1,2,… G 其中qg是第g组的先验概率，一般采用样品频率代替（qg=ng/n）。cig是判别系数。对于某一待判别归属的样本，如果则把该样本划归g*类。也就是把样本中变量的观察值分别代入G个判别函数，哪个函数取值最大，就划归那一组。 ①福建省自然科学基金项目(A0410021)和福建省教育厅科技项目(JAO04235)资助。可以将用来建模(求得判别函数)的原始数据回代到各组判别函数，求得样品的归属，与原来实际分类对比，以确定判别函数的准确度。一般回判效果都很好，正判率85%以上。 2定向判别方法的引入 2.1定向判别的基本思想对于时间序列多元数据，虽然没有很好的方法建模和用于预测，但是我们可以借用判别分析的方法。对于时间序列样本的判别分析，有其特殊性，即不论是建模样本还是待判别样本，都按时间顺序排列，顺序不能颠倒。事物的发展是波浪式前进、螺旋式发展。在气象、地壳运动、经济、生物等事物发展变化中都会出现周期性或旋回性，这就使不同时间段的样本会出现相同或相近的数量特征。因此，在回归判别时造成样本归属顺序的上下混乱。解决这个问题，需将这些专门领域的知识和计算机运算相结合。根据所涉及问题的特征可以给出样本的大致归属，专业人员把未知样品归属粗估到2-4个类的范围之内是完全不成问题的。比如地质人员根据邻区或区域地质情况以及颜色、岩性特征可以给出地层的大致归属，他们不会把新生代的地层认定为中生代地层。在大致范围参数确定的情况下，给软件运行输入定向或范围参数，就可避免归类混乱或将样本判归到根本不可能的、时代偏离很远的类别。这就是我们提出的“定向判别”方法的基本思想。这种思想可用于改进多组判别分析和逐步判别分析。 2.2定向判别分析的建模定向判别分析是针对时间序列多元数据，样本要按照由新到老或由老到新的时间顺序排列，最后一列应当有现行分类号。一般根据具体问题，事物随时间推移有多个阶段，按顺序一个阶段就是一类。人为不好对有序样本进行分类时，可以采用有序聚类方法[2][5] (又称最优分割法)，对样本进行分类。分类数不同，则可以进行类型数不同的判别分析建模。定向判别的建