- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
半监督特征选择和特征选择的稳定性研究-控制工程专业论文
上海交通大学硕士学位论文
上海交通大学 学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权上海交通大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。
保密口,在 年解密后适用本授权书。
本学位论文属于
不保密d
(请在以上方框内打(( -J )
学问作者签名:做 指导教师签名 :i:bh 日期 Yv{丁年〉月 \日 日期:沟凸年〉月叭日
第 11 页
万方数据
上海交通大学硕士学位论文
万方数据
半监督特征选择和特征选择的稳定性研究
摘要
数据挖掘是用尽各种方法从数据当中获取知识的过程。但是数据 集越来越高的维数给数据???掘带来了越来越大的挑战。随着人类知识 的增加,数据集变得越来越庞大,而且不断的产生新的类型的数据, 比如说网络当中的数据流、基因和蛋白质中的微阵列等等。研究人员 们逐渐意识到,如果一套数据挖掘工具是有效的,那么特征选择一定 要是这套系统当中的一个重要的组成部分。特征选择是一个按照某种 规则从原始特征当中选择一个特征子集的过程,是一个在数据挖掘当 中经常被用到的降维技术。在特征选择的过程当中,减少了特征的数 量,去掉了不相关的特征、冗余的特征、或者是噪声数据,因而带来 了直接的影响,比如说加快了数据挖掘算法的计算并且提高了挖掘的 效果,提高了算法的精度,让最后的结果更容易理解等等。
特征原则一直都是数据挖掘、机器学习当中一个活跃的研究领域, 而且有着非常广泛的应用。比如说在基因分析、文本挖掘、图像检索 等等。随着近年来越来越多的新的应用背景,在高维数据复杂数据上 面出现了新挑战,这就需要新的理论、新的方法。稳定特征选择、半 监督特征选择等。
本文主要是研究近几年特征选择领域的两个热门话题,一个是半 监督特征选择,另外一个是特征选择稳定性的度量。
随着采集数据越来越容易,采集一个样本远远要比标记一个样本
第 III 页
来的容易,所以真实情况的训练数据集往往是由少数的有标记样本加
上大量的无标记样本构成,半监督特征选择就是针对这种常见的训练 数据集的特征选择方法。本文对目前比较流形的半监督特征选择方法 进行了研究,并提出了一种基于流形约束的半监督 Fisher-Markov 特 征选择器。
特征选择的稳定性是一个经常被忽视的指标,但是有时候稳定性 的重要程度却不亚于分类精度。本文通过分析现有的集中稳定性度量 方法,并研究了这些度量方法的优缺点。
关键词:特征选择,降维,流形学习,半监督,稳定性,半监督
第 IV 页
THE RESEARCH OF FEATURE SELECTION AND ITS
APPLICATION
ABSTRACT
Data mining is the process of acquiring knowledge of the various methods from the data. Increasing dimensions of datasets has brought a growing challenge. With the increase of human knowledge, data sets become increasingly large, and continue to produce new types of data, for example, the data stream, the network of genes and proteins in the microarray, and so on. The researchers have come to realize that, feature selection is indispensable to a data mining system. Feature selection is a process to select a subset of features from the original features.
Feature subset selection is an important approach to deal with high-dimensional data. But selecting the best subset of data is NP hard. So most of feature selection methods cannot handle high-dimensional data efficiently,
您可能关注的文档
- 百度并购91无线:基于交易成本视角的分析与考察-工商管理专业论文.docx
- 百度歌曲搜索引擎服务的侵权责任分析-民商法学专业论文.docx
- 百度市场营销策略的案例研究-工商管理专业论文.docx
- 百度视频移动客户端运营策略研究-新闻与传播专业论文.docx
- 百度贴吧php中间层的设计与实现-软件工程专业论文.docx
- 百合地黄汤抗抑郁作用的实验研究-中药学中药药理(药效、毒理)专业论文.docx
- 百合的快速繁殖与多倍体新种质的培育-细胞生物学专业论文.docx
- 百黄洗剂治疗手足癣的临床疗效观察及抑制真菌实验研究-中医外科学专业论文.docx
- 百花滩2号隧道滑坡稳定性分析及变形预测-岩土工程专业论文.docx
- 百货商场顾客忠诚度分析-市场营销管理专业论文.docx
- 半监督学习方法研究-控制理论与控制工程专业论文.docx
- 半焦兰炭产业清洁生产技术方案研究-环境工程专业论文.docx
- 半腱肌腱重建后交叉韧带的研究-人体解剖学专业论文.docx
- 半监督最小最大模块化支持向量机研究-计算机应用技术专业论文.docx
- 半焦(兰炭)产业清洁生产技术方案研究-环境工程专业论文.docx
- 半金属材料的第一性原理计算-凝聚态物理专业论文.docx
- 半金属摩擦片湿法制备工艺及其摩擦学性能研究-机械设计及理论专业论文.docx
- 半金属颗粒复合体系中磁输运的研究-凝聚态物理专业论文.docx
- 半控型功率器件并联均流控制的非线性稳定运行机理-电气工程专业论文.docx
- 半晶态聚合物拉伸变形行为的微观机理-机械设计及理论专业论文.docx
文档评论(0)