《数据预处理任务及方法.docxVIP

下载本文档

4
0
约6.62千字
约 8页
2017-01-15 发布于四川
举报
版权申诉

《数据预处理任务及方法.docx

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

《数据预处理任务及方法

数据预处理任务及方法聚类（Aggregation）抽样（Sample）维数约减（Dimensionality reduction）特征子集选择（Feature subset selection）特征创造（Feature creation）离散化和二进制化（Discretization and binarization）变量转换（Variable transformation）总的来说，这些内容可以分为两类：为分析数据选择数据对象和属性；为分析数据创造或改变属性。所有这些内容都是考虑到时间、成本和质量，提高数据挖掘分析质量。（属性、特征、变量都是近义词，不做具体区分）一、聚类考虑到有时候“less is more”，将两个或多个对象合并成一个就是聚类的思想。举个例子，下表是由交易记录（数据对象）构成的一个数据集，它是不同地点的商店在一年内的时间的产品日常销售数据（Minneapolis，Chicago，Paris，……）。聚合这样的数据集的一种方法是将一个商店的所有的交易记录用一个单独的商店范围的交易代替。这样就可以减少上千条交易记录了。Transaction IDItemStore LocationDataPrice…………………101123WatchChicago09/06/04$25.99…101123BatteryChicago09/06/04$5.99…101124ShoesMinneapolis09/06/04$75.00…………………但是这样的方法有一个非常明显的问题：如何创造一个聚类的交易记录，即应该如何根据一个指定地点的记录来合并属性的值，创造聚类交易，使其能代表一个商店或者一个时间的交易。数值型属性如价格，可以采用加和或者平均值的方式代替。质量型属性如项目，则可以采用省略或者某个地点的项目和的方法。该表格的数据可以看成是多维的列，每个属性即是一个维度。根据这种思想，聚类可以看成是消除属性，如删除项目列，或者减少某个属性的值的数量，如将日期可能的值从365天改成12个月的记录方式。这种聚类经常出现在在线分析处理中（Online Analytical Processing, OLAP）中。聚类的动机：1、小的数据集可以节省内存，提高处理效率。2、聚类可以提供更高层的数据视图。3、群体对象的行为要比个体更加稳定。但是聚类有一个缺点就是可能会丢失有趣的细节。二、抽样数据挖掘中的抽样动机与统计学中的抽样有所不同。统计学的抽样是因为获得全体的成本花费太高，而数据挖掘的抽样是因为处理所有的数据代价太高。抽样就要使样本具有代表性，即样本与总体有近似的属性。抽样的方法：最简单的抽样方法是随机抽样。随即抽样分成两种（其它抽样方法类似）：不带重复的抽样和带重复的抽样。当样本与总体数据相比很小时，两种方法没有大的区别，但是带重复的抽样在分析时相对简单，因为在样本处理中，选取任何对象的概率是一样的。当总体有很多不同类型的对象，且对象的数量有很大不同时，简单随机抽样并不适合。这就要使用分层抽样。维数约减（Dimensionality Reduction）数据集可以有很多的特征。对维数进行约减可以有很多好处。其中一个关键的有点是很多数据挖掘算法在低维度的情况下有很好的表现。这是因为维数约减可以消除无关的特征并降低噪音数据，也可能是因为维数灾难（the curse of dimensionality）。维数约减的另一个好处是可以建立一个容易被理解的模型。维数约减通常可以采用建立新属性的方式，将几个旧属性合并在一起。也可以选择旧属性集中的子集，这种方法通常称为特征子集选择或者特征选择。维数灾难（The Curse of Dimensionality）维数灾难是指很多情况下的数据分析在数据维度增加的情况下会变得非常困难的现象。特别地，当数据维度增加时，数据会变得非常稀疏。与维数约减有关的线性代数技术维数约减中最常用的方法（尤其是针对连续性数据来说）是使用线性代数的相关技术。主成分分析（Principal Components Analysis, PCA）是给连续性数据建立新属性的线性代数的方法。其新属性是：（1）源属性的线性联合，（2）是相互正交的，（3）是数据中变化最大的（capture the maximum amount of variation in the data）。奇异值分解（Singular Value Decomposition, SVD）是一种与PCA有关的线性代数的技术，在维数约减中被经常使用。三、特征子集选择只使用特征集中的一个子集是维数约减中的一种方法，尽管这样的方法可能会丢失信息，但是如果有多余的（redundant）和无关的（irrelevant）特征时就不会出现这种状况。多余的特征（Redundant featu