基于最小联合互信息亏损的最优特征选择算法分析-analysis of optimal feature selection algorithm based on minimum joint mutual information loss.docxVIP

下载本文档

31
0
约5.53万字
约 50页
2018-08-14 发布于上海
举报
版权申诉

基于最小联合互信息亏损的最优特征选择算法分析-analysis of optimal feature selection algorithm based on minimum joint mutual information loss.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于最小联合互信息亏损的最优特征选择算法分析-analysis of optimal feature selection algorithm based on minimum joint mutual information loss

独创性声明本人声明所呈交的学位论文是我个人在导师的指导下进行的研究工作及取得的研究成果。尽我所知，除文中已标明引用的内容外，本论文不包含任何其他人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名：日期：年月日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，即：学校有权保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本论文属于保密口，在年解密后适用本授权书。不保密口。（请在以上方框内打“√”）学位论文作者签名：日期：年月日指导教师签名：日期：年月日1 绪论1.1 研究背景、目的及意义随着人类通信技术和存储技术的不断发展，大型数据库系统在各行各业中逐渐普及。在数据库中存储的大量数据背后隐藏着许多重要信息，这些重要信息对支持人们的决策有着十分重要的作用。用于对这些数据进行分析处理的工具虽有了很大的发展，但隐含在这些数据中的许多重要的信息还远远没有得到足够的利用。在这个背景下，数据挖掘技术及其应用受到了广泛的重视与长足的进展。数据挖掘就是通过分析在数据库中所存的数据来解决当前或未来的问题，数据挖掘通常被简洁地定义为获取数据模式的过程[1]，该过程往往是自动化或者半自动化的。另一种公认的定义是：数据挖掘就是从数据库的数据中提取人们可能感兴趣的、隐含的、潜在有用的知识。所提取的知识可以以概念(Concepts)、规则(Rule)、规律(Regularities)、模式(Patterns)等多种形式出现[2]。现在普遍接受的定义是：数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程[3]。分类是数据挖掘的一大分支。分类（又称有监督学习）是指给定的分类学习算法在若干带类有标签的训练样本的情况下通过归纳学习从而获得一个分类模型(Classification Model)，然后再根据该模型对未知类标签的样本进行所属类别的预测。分类模型由能代表样本群体信息的特征所构成，对分类的效率和准确度有着直接的影响。随着社会的不断发展，人类知识的积聚使得越来越多领域中的数据呈现出大规模增长的趋势。许多分类学习算法面临着处理大规模数据集的困难。数据集的规模体现在两个方面：样本数量及特征维数。样本数量过多以及特征维数过高都会增加分类学习算法的复杂度，同时降低分类的性能。在实际中，为确保分类学习算法中参数估计（例如概率分布中的参数估计等）的可靠性，需要大量的训练样本，即在保证算法性能的前提下，样本数应随着特征维数的增加呈指数级增长。然而实际中数据集的样本数量往往是有限的，在有些领域中（例如基因模式识别、文本分类等），数据集的特征维数甚至远远大于其样本数，这将使参数估计的准确性大大降低，从而严重影响分类算法的性能。从另一方面来看，高维特征空间中往往含有大量的与分类不相关的特征和冗余特征。这些特征不仅增加了特征维数，同时还提供了许多“噪声数据”对分类学习算法产生不必要的干扰，导致分类学习算法过度拟合(over-fitting)训练样例的现象发生。这就是分类学习算法所面临的“维数诅咒”(curse of dimensionality)困难[4]。鉴于此，特征约减(feature reduction)已经成为机器学习领域重要的研究方向，引起了越来越多的机器学习领域学者的兴趣。从原始特征空间中选择较少的特征不仅可以减小学习算法的计算复杂度，提高分类准确度，还有助于寻找更精简更易理解的算法模型。一般而言，特征约减可以分为两类：特征抽取(feature extraction)和特征选择(feature selection)[5]。特征抽取通过将原始特征空间映射到某一低维特征空间而获得一些新的特征，并通过这些新特征对数据集进行表达。其中，主成分分析(Principle Component Analysis, PCA)和独立成分分析(Independent Component Analysis, ICA)是两种典型的特征抽取方法。特征选择则按照某种评价准则从原有的特征空间中选择一些最有代表性的特征对数据集进行表达。具体来说，特征选择的任务即去掉原始特征空间中的无关和冗余特征，以此获得的特征子集用于分类可以减少所需的存储空间，加快处理速度以及提高分类精度。特