属性约简方法概述.docx

下载文档 降价啦

48
0
约2.66千字
约 4页
2017-12-31 发布于江西
举报
版权申诉
保障服务

属性约简方法概述.docx

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

属性约简方法概述

属性约简方法概述属性约简又称维规约或特征选择，从数学的角度考虑，就是有p维数据 x=(x1,x2……xp)，通过某种方法，得到新的数据x’=(x’1,x’2…… x’k) ,k≤p, 新的数据在某种评判标准下，最大限度地保留原始数据的特征。属性约简主要是为了解决高维数据计算的复杂性和准确性问题。目标是消除冗余和不相关属性对计算过程和最终结果造成的影响。对数据进行属性约简的意义，主要从以下几个方面考虑：从机器学习的角度来看，通过属性约简去除噪音属性是非常有意义的；对一些学习算法来说，训练或分类时间随着数据维数的增加而增加，经过属性约简可以降低计算复杂度，减少计算时间；假如不进行属性约简，噪音或不相关属性和期望属性对分类的作用一样，就会对最终结果产生负面影响；当用较多的特征来描述数据时，数据均值表现得更加相似，难以区分。为了描述属性约简方法，这里假设数据集合为D，D={x1,x2….xn}, xi表示D中第i个实例，1≤i≤n，n为总的实例个数。每个实例包含p个属性{|xi|=p}。从机器学习的角度来看，属性约简方法可以分为监督的和非监督的两类。下面是几种常用的方法。(1)PCA主成分分析主成分概念是Karl parson于1901年最先引进。1933年，Hotelling把它推广到随机变量。主成分分析把高维空间的问题转换到低维空间来处理，有效的降低了计算的复杂度。通过主成分的提取，降低了部分冗余属性的影响，提高了计算的精度。主成分分析的基本思想为：借助一个正交变换，将分量相关的原随机变量转换成分量不相关的新变量。从代数角度，即将原变量的协方差阵转换成对角阵；从几何角度，将原变量系统变换成新的正交系统，使之指向样本点散布最开的正交方向，进而对多维变量系统进行降维处理[43]。定义4-1[44]：设为p维随机向量，它的第i主成分分量可表示，i=1,2,…, p。其中是正交阵U的第i列向量。并且满足：是的线性组合中方差最大者；是与不相关的的线性组合中方差最大。(k=2，3，…p)。定义4-2[45]: 设是随机向量的协方差矩阵，其特征值-特征向量对，其中。则第i个主成分为：i=1, 2, …p ………………….式(4-1)且i=1, 2, …p；。定义4-3[45]: 设随机向量有协方差矩阵，其特征值-特征向量对，其中，是主成分，则………….式(4-2)定义4-3说明主成分向量的协方差阵为对角矩阵。总体信息量可以用特征值来衡量，相应的特征值反映的是对应主成分的信息量。进而可以计算每个主成分的贡献率。定义4-4[44]：记为第k主成分的贡献率，为前k个主成分的累积贡献率。主成分分析经常用于减少数据集的维数，同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分，忽略高阶主成分做到的。主成分描述了数据的可变性，通过它可以模拟原始数据。主成分分析作为最重要的多元统计方法之一，在经济社会、企业管理、工业控制、模式识别等各领域有极其广泛的应用。(2)监督条件下的维规约方法(Chi-Square检测, 信息增益, 增益率)监督的维规约方法主要用来辨别属性值预测类标识的能力。设考察的属性为V，V有p个取值V={V1，V2… …Vp}，数据集有z个类，用C={C1，C2… …Cz}表示。nri是指当属性V的值为Vr时，类为Ci的个数，uri是指当数据为均匀分布此属性值时期望的类的数目，1≤r≤p，1≤i≤z。属性V的取值分布见表4-1。表4-1属性V取值分布表Table 4-1 Value Distribution Table of Attribute V类标识属性值C1……Ci……Cz个数V1……Vr (1≤r≤p)……Vpn11(u11)……nr1(ur1)……np1(up1)…………………………n1i(u1i)……nri(uri)……npi(upi)…………………………n1z (u1z)……nrz(urz)……npz(upz)n1……nr……npn’1……n’i……n’zna) Chi-Square检测卡方检验是一种假设检验方法，它在分类资料统计推断中的应用，包括：两个概率或两个构成比比较的卡方检验；多个概率或多个构成比比较的卡方检验以及分类资料的相关分析等，它引入了一个服从卡方分布的评分准则。在数据集合D上，特征f和类c的相关性评分公式如下：……………………………式(4-3)从本质上来看，卡方分布是对数据集的实际属性值类别数目与期望中的属性和类无关时的类别数目差别的评分。b)信息增益 (IG)息增益（information gain）是指期望信息或者信息熵的有效减少量。从数据分类的角度看，根据它能够确定在什么样的层次上选择什么样的变量来分类。信息增益度量了某个特征给训练集带来的信息量大小。它定义为用特征f划分数据集D引起熵的约简。如公式