数据降维技术在数据挖掘中的应用.docxVIP

下载本文档

2
0
约4.81千字
约 5页
2023-12-04 发布于广东
举报
版权申诉

数据降维技术在数据挖掘中的应用.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据降维技术在数据挖掘中的应用自1989年8月第一个dd国际研讨会（idd）提出以来，它已经经历了20多年的发展，在金融、电信、零售、医疗、信息技术等领域发挥了重要作用。目前,许多企业和政府部门等机构都积累了海量的、不同维度的数据资料,数据挖掘主要用于从原始数据资料中挖掘有用的信息,而这些数据资料的维数已经对目前大多数数据挖掘算法的效率造成了严重的阻碍,这种阻碍被称之为“维数灾难”。也就是说,现有的数据挖掘算法对低维度的数据集非常有效,而对高维度的数据集则很难得出有意义的结果。近几年,人们对数据挖掘技术的研究热情持续升温,在理论研究和技术应用等各个方面都取得了长足的进步,伴随着数据库技术和数据挖掘技术的不断发展,高维数据集的降维这一现实问题已经引起了各界学者越来越多的关注。本文通过对近几年来数据降维技术成果的研究和归纳,从探求数据集降维技术的发展趋势的角度出发,对目前数据降维技术的研究进展进行了分析和总结。 1 属性约简和冗余维度约简数据降维的问题可以按照其原因分为四大类,分别为降低学习(建模)成本、提高学习(建模)性能、不相关维度约简和冗余维度约简,如图1所示。降低学习(建模)成本和提高学习(建模)性能可以进一步分为两个子问题:记录约简和属性约简,其中记录约简在更多的情况下被具体化为样本(或元组)分解;属性约简则包含功能分解和属性分解两个方面,这两个分解问题是分解方法论中的一部分。属性分解有一个子问题是变量选取,它的解决方法是在数据预处理过程中从给定的数据集中删除某属性,它的基本原理是减少数据挖掘算法运行所需时间,因为运行时间是由记录的数量和每个记录(维度)中属性的数量决定的,但是变量选取可能会降低数据挖掘的精确度。不相关维度约简和冗余维度约简可以进一步分为两个子问题:特征选取和记录选取。特征选取的目的是确定哪些特征是重要的,哪些特征是不相干的或是冗余的并可以放弃的。特征选取的过程减少了数据集的维数,使数据挖掘算法更快和更有效的运行。在某些情况下,未来的分类精度可以改善,而在其他情况下,其结果将更简洁,更容易用模型来解释。记录选取过程相对简单,但正如数据集中有一些属性比其他属性重要一样,正确的选取可以对后续的数据挖掘结果更有帮助。 2 数据恢复方法的分类和研究现状目前,数据降维方法可以分为两大类,线性方法和非线性方法。 2.1 数据分析方法当数据集中各个变量间是独立无关的,或者数据为非线性时可在一定程度上用线性结构近似表达的时候,可以运用线性方法来对数据进行降维。关于数据降维线性方法最初的研究是1958年Togerson提出了多维尺度分析(Classical Multidimensional Scaling,MDS)的方法,多维尺度法是一种将多维空间的研究对象(样本或变量)简化到低维空间进行定位、分析和归类,同时又保留对象间原始关系的数据分析方法。主成分分析法(Principal Component Analysis,PCA)与多维尺度法相类似,是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。线性判别分析(Linear Discriminant Analysis,LDA)与主成分分析法类似,是将高维的模式样本投影到最佳鉴别矢量空间,投影后保证模式样本在新的子空间有最大的类间距离和最小的类内距离,以达到抽取分类信息和压缩特征空间维数的效果。独立成分分析(Independent Component Analysis,ICA)通常被用来提取独立统计成分,同时最大化非高斯特性的测量,如峰度和偏度,或者将互信息减到最少。随机投影(Random Projection)是通过构建Lipschitz映射来实现降维,当数据维数和基数很大时,它不是引入了一个显著的畸变,而是随机地将原始的高位数据投射到一个低维子空间,由于投影消耗的是线性计算时间,因此这种方法的计算效率很高。 2.2 什么是等距离映射算法当数据为高度非线性或强属性相关时,运用线性的方法对数据集进行降维处理的效果则不是很理想,因此这种情况下,需要用非线性的方法对数据集进行降维。目前数据降维的非线性方法有很多,人们也把更多的研究热情投入到其中。数据降维的非线性方法有以下几种。基于核的主成分分析方法(Kernel Principal Component Analysis),是目前国际上比较流行的一种特征提取方法,它是利用核技巧对主成分分析法进行的一种非线性推广。 2000年,Tenenbaum等人提出了等距离映射算法(Isometrie Mapping,Isomap)。等距离映射算法用于计算一组高维数据点的准等距离低维嵌入,在粗略估计每个数据点的相邻流形的基础上,为计算一个数据流形的内在几何关系提供了一种简单方法。 2000年,Ro