基于核函數Fisher判别的数据分类算法研究.doc

下载文档 降价啦

9
0
约1.32万字
约 51页
2016-12-27 发布于上海
举报
版权申诉
保障服务

基于核函數Fisher判别的数据分类算法研究.doc

1、本文档共51页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

浙江理工大学硕士学位论文基于核函数Fisher判别的数据分类算法研究姓名：彭陈松申请学位级别：硕士专业：基础数学指导教师：李重浙江理工大学硕士学位论文基于核函数???判别的数据分类算法研究随着互联网等技术的快速发展，每天都会产生大量的数据，如何从海量的数据中提取出有用的信息成为人们面临的新的挑战，数据挖掘技术在这种需求下应运而生。分类作为数据挖掘重要的分支，在图像分类、语音识别等领域中有着重要的应用。近年来，如何利用已知样本来提高分类算法性能的研究与应用引起了学术界和工业界越来越多的关注。但是，随着目前实际应用中对分类算法鲁棒性、适应性以及分类准确率要求的不断提高，传统的分类算法已不能满足应用的需要，需要更深入的理论分析。本文主要对基于核函数???判别分析的数据分类算法进行系统的研究，具体的研究工作如下： ??攵源?车南咝苑掷啵?獽均值算法和???判别结合起来，提出了一种新的循算法在线性划分中取得了较好的效果。 ??诜窍咝苑掷嗨惴↘?中，针对核函数的选取，本文在信息增益率准则下使用纠正重复取样?馐裕?冉狭司胖殖Ｓ煤撕??姆掷嘈阅埽?赋隽嗽诿挥邢妊樘跫?拢琑? 核函数具有最优的分类能力。 ??贙?算法??撕??问?⒌挠呕?侍庵校?永砺凵戏治隽素甏?到?时的变化规律，并用实验对该结论进行了验证。 “三分法”，弥补了交叉验证法和梯度下降法等优化算法的不足。 ??攵源?矺?算法的不足，本文系统研究了加权的核函数???判别算法 ???，并对几种常用的权值，如质心距离权重、组平均距离权重、??距离权重进行了研究比较，得到了较优权值函数。浙江理工大学硕士学位论文 ????????? ?? ? ???? ????? ?? ?? ? ? ? ??????? ??????? ? ? ??? ??????? ?? ?? ???? ? ????．?????? ????????????? ????? ?????? ??????? ?????，?????? ? ?? ?????????? ?? ? ???篺?? ??? ???????，?? ??? ? ??????? ??????? ? ??????????????， ??????? ? ??? ??? ? ?????琑????? ??????? ?????? ? ??? ???阠??? ????∞，?? ? ? ?????? ?????? ???? ?? ??? ? ????? ? ????????，?? ? ??????． ? ??????? ? ??? ????????? ???????????? ???? ? ??? ? ???? ????．浙江理工大学硕士学位论文第一章绪论 ??数据挖掘研究背景与意义自上世纪六十年代以来，随着互联网、生物医学、卫星遥感等技术的快速发展，尤其是计算机互联网技术的日新月异，人们时时刻刻都能获取大量的数据，但是怎样合理利用这一丰富的数据宝藏，已成为众多科研人员所关注的焦点。上世纪八十年代开始，数据挖掘技术逐渐发展起来，数据挖掘技术的迅速发展，得益于目前全世界所拥有的巨大数据资源以及对将这些数据资源转换为信息和知识资源的巨大需求，对信息和知识的需求来自各行各业，从商业管理、生产控制、市场分析到工程设计、科学探索等。以下五个新的问题引发了对传统数据分析的挑战，数据挖掘技术正在这个时候呼之而出。量数据，数据挖掘算法必须具有可伸缩性。新兴生物学中，微阵列技术能够产生几千个属性的基因数据：还有各种类型的贸易交易数究高维据具有重要意义。而高维数据处理的复杂度要比低维数据高得多，例如在低维空间中我们可以采用欧氏距离来衡量两个样本之间的相似度，而在高维空间中很多情况下这种相似度计算不再适用。要么是离散的。但是，随着数据挖掘在商务、科学、医学和其他领域的作用越来越大，已经出现了更复杂的数据对象。这些非传统的数据类型的例子有：含有半结构化文本和超链接的??趁婕?⒕哂行蛄泻腿??峁沟腄?数据、包含地球表面不同位置上的时间序列测量值?露取⑵?沟?的气象数据。为挖掘这种复杂对象而开发的技术应当考虑数据中父子联系。我们开发分布式数据挖掘技术。目前，分布式数据挖掘算法面临的挑战有：①降低分布式计算所需的通信量；②有效地统一从多个资源得到数据挖掘结果；③数据安全性问题。验来收集数据，然后针对假设分析数据。但是，这一过程劳力费神。当前的数据分析任务常常需要产生和评估数千种假设，因此需要自动地产生和评估假设，这促使人们开发了一些数据挖掘技术。此外，数据挖掘所分析的数据集通常不是精心设计的实验的结果，并且它们通常代表数据的时机性