- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
4数据挖掘的预处理1数据库与数据仓库2数据选择与集成3数据清理4数据归约5数据变换6数据离散4.4数据规约有些数据属性对发现任务是没有影响的,这些属性的加入会大大影响挖掘效率,甚至还可能导致挖掘结果的偏差。简化是在对发现任务和数据本身内容理解的基础上,寻找依赖于发现目标的表达数据的有用特征,以缩减数据规模,从而在尽可能保持数据原貌的前提下最大限度地精简数据量。4.4数据规约主要有两个途径:属性选择和数据抽样,分别针对数据库中的属性和记录。属性选择包括针对属性进行剪枝、并枝、找相关等操作。数据抽样是进行数据记录之间的相关性分析,用少量的记录基底的线性组合来表示大量的记录。它主要得用统计学中的抽样方法如简单随机抽样、等距抽样、分层抽样等。4.4数据规约——基于粗糙集理论的约简法粗糙集(RoughSet,RS)01一种研究不精确、不确定性知识的数据学工具,目前受到了KDD研究者的广泛重视,用RS理论对数据时行处理是一种十分有效的精简数据维数的方法。我们所处理的数据一般存在信息的含糊性问题,含糊性有三种,术语的模糊性,知识自身的不确定性;数据的不确定性。024.4数据规约——基于粗糙集理论的约简法粗糙集(RoughSet,RS)01RS理论的最大特点是无需提供问题所需处理的数据集合之外的任何先验信息,其基本思路是利用定义在数据集合U上等价关系对U进行划分。对于数据表来说,这种等价关系可以是某个属性,或者是几个属性的集合。因此按照不同属性的组合就把数据表划分成不同的基本类。在这些基本类的基础上进一步求得最小约简集。024.4数据规约——基于粗糙集理论的约简法粗糙集(RoughSet,RS)采用RS理论作为数据预处理方法具有许多的优点:不需要预先知道额外信息;算法简单、易于操作。应用RS的属性约简可以有效地去除冗余现象,同样可以应用RS方法中的约简技术删除某些属性的多余值,从而使条件属性的个数和取值得到约简。但是,RS理论只能处理离散型属性。对于连续的属性必须先进行离散化才能再运用RS理论进行处理。4.4数据规约——基于粗糙集理论的约简法在数据库中,许多属性都是可以进行归类,各属性值和概念依据抽象程度不同可以进行数据归类并构成一个层次结构,概念的这种层次结构通常称为概念树。01概念树一般由领域专家提供,它将各个层次的概念按一般到特殊的顺序排列。02概念树的基本思路4.4数据规约——基于概念树的数据浓缩基于概念树的数据预处理方法是一种归纳方法,其实是数据库中元组合并的处理过程,其基本思路如下:首先,一个属性的具体的值被该属性的概念树中的父概念所代替,然后对相同元组进行合并,构成更宏观的元组,并计算宏元组所覆盖的元组数目仍然很大,那么用该属性的概念树中父概念去替代或者根据另一个属性进行概念树的提升操作,最后行成覆盖面更广、量更少的宏元组。21可以采用统计分析中的一些算法来进行特征属性的选取,比如主成分分析、逐步回归分析。这些方法的共同特征是用少量的特征元组去描述的原始数据。4.4数据规约——基于统计分析的属性选择主成分分析的思想是:对于给定的输入数据矩阵X,计算其相关系数矩阵R=X·X,取与R中最大的几个特征值相应的特征向量作为主成分。其中数据准则是希望每次取得一个综合变量的方差,在原变量的全部方差(或剩下的全部方差)中所占的比例最大。4.4数据规约——基于统计分析的属性选择主成分方法的特点是将描述某一事物的多个变量压缩成描述该事物的少数几个合变量或称主成分(通常用原变量的线性组合表示),旨在用新的少数几个综合变量代替原始变量,并使这种替代所蒙受的损失最少。主成分分析法具有变差最优性。信息损失最小性。相关最优性和回归最优性,使它得以成为多元降维的重要工具之一。4.4数据规约——基于统计分析的属性选择4数据挖掘的预处理1数据库与数据仓库2数据选择与集成4数据清理4数据归约5数据变换6数据离散数据变换主要是找到数据的特征表示,用维变换或转换方法减少有效变量的数目或找到数据的不变式,包括规格化、归约切换、旋转和投影等操作。简单变换1平滑:去噪,方法:回归、聚类2聚集:不同估量单位的聚集,如日-月-年3数据概化:抽象和提升4规范化:将数据转化到一定区间,[0,1]最小-最大规范化:零均值规范化:空间变换线性变换01小波变换(高维空间变化,正交基,可保持多种属性不变,在此后面我们将进行深入介绍)。024数据挖掘的预处理1数据库与数据仓库2数据选择与集成4数据清理4数据归约5数据变换6数据离散连续属性离散化离散属性也称符号的(symbolic)
文档评论(0)