产生式判别式混合分类方法分析-控制科学与工程专业论文.docxVIP

下载本文档

4
0
约3.99万字
约 43页
2018-10-21 发布于上海
举报
版权申诉

产生式判别式混合分类方法分析-控制科学与工程专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

产生式判别式混合分类方法分析-控制科学与工程专业论文

2 2 山西财经大学学位论文版权使用授权书本学位论文作者完全了解学校有关保管、使用学位论文的规定，同意学校保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权山西财经大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于保密□，不保密□。在年解密后适用本授权书。（请在以上方框内打“√”）学位论文作者签名：指导教师签名：日期：年月日日期：年月日产生式/ 产生式/判别式混合分类方法研究 1 1 1 绪论 1.1研究背景及意义 20 世纪 60 年代以来，信息技术和数据库技术逐渐从文件系统演变为结构复杂、功能强大的数据库系统。数据库系统是指在计算机系统中引入数据库后的系统，一般包括数据库、数据库管理系统、应用系统等。从 20 世纪 70 年代开始，随着计算机的普及和数据库技术的不断发展，数据库的存储数据量急剧增大，出现了“数据丰富，信息贫乏”的现象。如何从海量数据集中高效的提取有价值的信息，成了人们需要解决的首要难题。伴随着数据处理方法的改进，数据挖掘技术应运而生。数据挖掘就是从海量数据中提取人们感兴趣的、隐含的、事先未知的、又潜在有用的信息，提取的知识表示为概念、规则、规律、模式等形式[1]。分类技术是数据挖掘的一个重要研究方向，已经成功应用于医疗诊断、图像处理、基因序列分析、经济预测以及社会科学等诸多领域。目前成熟的分类方法有决策树、贝叶斯、神经网络、支持向量机、k 最近邻等，这些分类方法依据其产生过程被分为产生式分类器和判别式分类器。产生式模型一般具有通用性、灵活性及清晰的层次结构，而且模型具有可解释性。但产生式分类器通常需要产生一些分类任务的中间目标，对该中间目标优化的过程，牺牲了最终分类任务的资源和性能，影响最终的分类性能。判别式分类模型只对从输入到输出映射的最优化感兴趣，不需要形成最终分类器的中间目标，因此，可以得到准确率更高的分类器。不同的分类方法得到的分类效果可能不同，没有一种方法能够适用于所有领域。就某一具体问题而言，传统的做法是通过多次实验寻求性能最优的分类器。很显然传统方法存在许多不足之处：1.训练大量的分类器需要很多的时间。2.当先验知识不充分时，通常很难确定最优的分类器。分类器的选取尚缺乏一个统一的理论指导，因此，寻求广义上提高分类性能的方法成为分类算法的一个重要研究方向。产生式模型和判别式模型作为分类方法的两大类，侧重点不同，而且各具优缺点，如果能将它们混合在一起，就能更好的对训练样本集进行建模，发挥它们各自的长处，得到更有效的分类模型。所以对产生式与判别式混合分类模型进行研究具有深刻的现实意义。 2 2 1.2研究现状 Dawid[2]早在 1976 年就将统计模型划分为采样模式（sampling paradigm）和诊断模式（diagnostic paradigm），这就是近年来重新出现在机器学习领域中且经常被提到的产生式模型（generative model）和判别式模型（discriminative model）。目前，国内外产生式模型与判别式模型的研究是一个非常热门的话题，主要集中在产生式与判别式学习之间的关系和产生式与判别式混合分类模型的研究两个方面。下面简要描述： a. 产生式和判别式学习之间的关系。 Rubinstein 和 Hastie[3]提出产生式分类器学习的是类密度，判别式分类器学习的是类边界。后来很多学者又通过实验对产生式和判别式模型进行比较，他们得出的结论有一个共同的趋势：当产生式和判别式方法的训练数据一样时，判别式模型比产生式模型的表现更好。一般来说产生式和判别式分类方法的分类性能依赖于建模的正确性，学习的偏差、效率、一致性，以及可靠的训练数据集[4]。Efron 等人[5]提出当 p(y)和 p(x|y)建模正确时，Linear Discriminant Analysis（LDA）比 Linear Logistic Regression（LLR）更有效。Ng 和 Jordan[6]给出了一些关于 LLR 和 Naive Beyes 分类器的理论和实验比较，结果显示，训练集规模的不同将导致产生式和判别式分类方法分类性能的不同。Roos 等人[7]对贝叶斯网络分类器和 logistic 回归的研究表明，对于满足某种简单的图理论条件的贝叶斯网络，如朴素贝叶斯、树扩展朴素贝叶斯等，相应的条件似然最大化问题等价于基于某种数据统计的 logistic 回归问题，