- 1、本文档共51页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
浙江理工大学
硕士学位论文
基于核函数Fisher判别的数据分类算法研究
姓名:彭陈松
申请学位级别:硕士
专业:基础数学
指导教师:李重
浙江理工大学硕士学位论文
基于核函数???判别的数据分类算法研究
随着互联网等技术的快速发展,每天都会产生大量的数据,如何从海量的数据中提取
出有用的信息成为人们面临的新的挑战,数据挖掘技术在这种需求下应运而生。分类作为
数据挖掘重要的分支,在图像分类、语音识别等领域中有着重要的应用。近年来,如何利
用已知样本来提高分类算法性能的研究与应用引起了学术界和工业界越来越多的关注。但
是,随着目前实际应用中对分类算法鲁棒性、适应性以及分类准确率要求的不断提高,传
统的分类算法已不能满足应用的需要,需要更深入的理论分析。
本文主要对基于核函数???判别分析的数据分类算法进行系统的研究,具体的研
究工作如下:
??攵源?车南咝苑掷啵?獽均值算法和???判别结合起来,提出了一种新的循
算法在线性划分中取得了较好的效果。
??诜窍咝苑掷嗨惴↘?中,针对核函数的选取,本文在信息增益率准则下使用
纠正重复取样?馐裕?冉狭司胖殖S煤撕??姆掷嘈阅埽?赋隽嗽诿挥邢妊樘跫?拢琑?
核函数具有最优的分类能力。
??贙?算法??撕??问?⒌挠呕?侍庵校?永砺凵戏治隽素甏?到?时的
变化规律,并用实验对该结论进行了验证。
“三分法”,弥补了交叉验证法和梯度下降法等优化算法的不足。
??攵源?矺?算法的不足,本文系统研究了加权的核函数???判别算法
???,并对几种常用的权值,如质心距离权重、组平均距离权重、??距离权重进
行了研究比较,得到了较优权值函数。
浙江理工大学硕士学位论文
?????????
??
?
????
????? ??
??
?
?
?
???????
???????
?
?
???
???????
??
??
????
?
????.??????
?????????????
????? ??????
???????
?????,??????
?
??
??????????
??
?
???篺??
??? ???????,??
???
?
???????
???????
?
??????????????,
???????
?
???
???
?
?????琑?????
???????
??????
?
???
???阠??? ????∞,??
?
?
??????
??????
???? ??
???
?
?????
?
????????,??
?
??????.
?
???????
?
??? ?????????
???????????? ????
? ???
?
????
????.
浙江理工大学硕士学位论文
第一章绪论
??数据挖掘研究背景与意义
自上世纪六十年代以来,随着互联网、生物医学、卫星遥感等技术的快速发展,尤其
是计算机互联网技术的日新月异,人们时时刻刻都能获取大量的数据,但是怎样合理利用
这一丰富的数据宝藏,已成为众多科研人员所关注的焦点。上世纪八十年代开始,数据挖
掘技术逐渐发展起来,数据挖掘技术的迅速发展,得益于目前全世界所拥有的巨大数据资
源以及对将这些数据资源转换为信息和知识资源的巨大需求,对信息和知识的需求来自各
行各业,从商业管理、生产控制、市场分析到工程设计、科学探索等。
以下五个新的问题引发了对传统数据分析的挑战,数据挖掘技术正在这个时候呼之而
出。
量数据,数据挖掘算法必须具有可伸缩性。
新兴生物学中,微阵列技术能够产生几千个属性的基因数据:还有各种类型的贸易交易数
究高维据具有重要意义。而高维数据处理的复杂度要比低维数据高得多,例如在低维空间
中我们可以采用欧氏距离来衡量两个样本之间的相似度,而在高维空间中很多情况下这种
相似度计算不再适用。
要么是离散的。但是,随着数据挖掘在商务、科学、医学和其他领域的作用越来越大,已
经出现了更复杂的数据对象。这些非传统的数据类型的例子有:含有半结构化文本和超链
接的??趁婕?⒕哂行蛄泻腿??峁沟腄?数据、包含地球表面不同位置上的时间序列
测量值?露取⑵?沟?的气象数据。为挖掘这种复杂对象而开发的技术应当考虑数据中
父子联系。
我们开发分布式数据挖掘技术。目前,分布式数据挖掘算法面临的挑战有:①降低分布式
计算所需的通信量;②有效地统一从多个资源得到数据挖掘结果;③数据安全性问题。
验来收集数据,然后针对假设分析数据。但是,这一过程劳力费神。当前的数据分析任务
常常需要产生和评估数千种假设,因此需要自动地产生和评估假设,这促使人们开发了一
些数据挖掘技术。此外,数据挖掘所分析的数据集通常不是精心设计的实验的结果,并且
它们通常代表数据的时机性
您可能关注的文档
- 基于共演理論的餐饮业态创新研究——以“休闲美食之都”杭州为例.doc
- 基于供應链的信誉链融资模式研究.doc
- 基于供應链金融信用风险的信用征集机制研究.doc
- 基于股票價格波动问题的消除系统风险的投资组合对策研究.doc
- 基于關系视角的网络顾客忠诚研究.doc
- 多功能垃圾清扫车清扫系统结构设计.doc
- 小学1-6年级英语学习知识点.docx
- 幼小衔接掌握知识点.docx
- 计算机四级信息安全工程师考试知识点.docx
- 如何起草领导讲话材料.doc
- 注册验船师高频真题题库2025.docx
- 注册验船师高频题库带解析2025.docx
- 注册验船师考试必备资料2025.docx
- 注册验船师精选题库带分析2025.docx
- 注册验船师考前冲刺必刷题附答案2025.docx
- 新高考生物二轮复习讲练测第10讲 人体的稳态与免疫调节(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第13讲 生物技术与工程(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第9讲 神经调节与体液调节(讲练)(原卷版).docx
- 新高考生物二轮复习讲练测第7讲 遗传的基本规律与伴性遗传(检测)(原卷版) .docx
- 新高考生物二轮复习讲练测第13讲 生物技术与工程(检测)(原卷版).docx
文档评论(0)