学习笔记5：大数据预处理与大数据挖掘十大经典算法.docVIP

下载本文档

3
0
约5.85千字
约 11页
2019-01-03 发布于安徽
举报
版权申诉

学习笔记5：大数据预处理与大数据挖掘十大经典算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

实用标准文案精彩文档学习笔记5：数据预处理与数据挖掘十大经典算法前言在介绍了数据挖掘的一般流程、常用方法、应用功能和数据可视化之后，在本篇博文中，笔者想要分享一些在数据挖掘开始之前要做的一些事——数据预处理。在第二部分中，笔者整理了数据挖掘中的十大经典算法，与读者们共享。两部分分别从《数据挖掘中数据预处理的方法与技术》一文与网络中引用而来，作为自己和读者朋友们的学习笔记。在第三部分阶段小结中，笔者对近期的学习进行了阶段性的总结。一、数据预处理现实中数据大多数都是不完整、不一致的，无法直接进行数据挖掘，或直接影响了挖掘结果。为了提高数据挖掘质量和数据挖掘效率，产生了数据预处理技术。对数据进行预处理，不但可以节约大量的空间和时间而且得到的挖掘结果能更好地起到决策和预测作用。数据预处理一般包括：数据清理，数据集成，数据变换，数据归约等方法。这些数据预处理技术根据数据挖掘项目的需要和原始数据的特点，在数据挖掘之前有选择的单独使用或综合使用，可大大提高数据挖掘模式的质量，降低实际挖掘所需要的时间。数据预处理技术整理如下：1、数据清理数据清理是数据预处理中最花费时间、最乏味的，但也是最重要的一步。该步骤可以有效地减少学习过程中可能出现相互矛盾的情况。数据清理主要处理缺失数据，噪声数据，识别、删除孤立点。数据清理的基本方法有：（1）缺失数据处理：目前最常用的方法是使用最可能的值填充缺失值，比如可以用回归、贝叶斯形式化方法工具或判定树归纳等确定缺失值。这类方法依靠现有的数据信息来推测缺失值，使缺失值有更大的机会保持与其他属性之间的联系。还有其他一些方法来处理缺失值，如用一个全局常量替换缺失值、使用属性的平均值填充缺失值或将所有元组按某些属性分类，然后用同一类中属性的平均值填充缺失值。如果缺失值很多，这些方法可能误导挖掘结果。如果缺失值很少，可以忽略缺失数据。（2）噪声数据处理：噪声是一个测量变量中的随机错误或偏差，包括错误的值或偏离期望的孤立点值。目前最广泛的是应用数据平滑技术处理，具体包括：分箱技术，将存储的值分布到一些箱中，用箱中的数据值来局部平滑存储数据的值。具体可以采用按箱平均值平滑、按箱中值平滑和按箱边界平滑；回归方法，可以找到恰当的回归函数来平滑数据。线性回归要找出适合两个变量的“最佳”直线，使得一个变量能预测另一个。多线性回归涉及多个变量，数据要适合一个多维面；计算机检查和人工检查结合方法，可以通过计算机将被判定数据与已知的正常值比较，将差异程度大于某个阈值的模式输出到一个表中，然后人工审核表中的模式，识别出孤立点；聚类技术，将类似的值组织成群或“聚类”，落在聚类集合之外的值被视为孤立点。孤立点可能是垃圾数据，也可能为我们提供重要信息。对于确认的孤立点垃圾数据将从数据库中予以清除。2、数据集成数据集成就是将多个数据源中的数据合并存放在一个同一的数据存储（如数据仓库、数据库等）的一种技术和过程，数据源可以是多个数据库、数据立方体或一般的数据文件。数据集成涉及3个问题：模式集成。涉及实体识别，即如何将不同信息源中的实体匹配来进行模式集成。通常借助于数据库或数据仓库的元数据进行模式识别；冗余数据集成。在数据集成中往往导致数据冗余，如同一属性多次出现、同一属性命名不一致等。对于属性间冗余，可以先采用相关性分析检测，然后删除；数据值冲突的检测与处理。由于表示、比例、编码等的不同，现实世界中的同一实体，在不同数据源的属性值可能不同。这种数据语义上的歧义性是数据集成的最大难点，目前没有很好的办法解决。3、数据变换数据变换是采用线性或非线性的数学变换方法将多维数据压缩成较少维数的数据，消除它们在时间、空间、属性及精度等特征表现方面的差异。这方法虽然对原始数据都有一定的损害，但其结果往往具有更大的实用性。常见数据变换方法如下：数据平滑：去除数据中的噪声数据，将连续数据离散化，增加粒度。通常采用分箱、聚类和回归技术。数据聚集：对数据进行汇总和聚集。数据概化：减少数据复杂度，用高层概念替换。数据规范化：使属性数据按比例缩放，使之落入一个小的特定区域；常用的规范化方法有最小最大规范化、z—score 规范化、按小数定标规范化等。属性构造：构造出新的属性并添加到属性集中，以帮助挖掘过程。应用实例表明，通过数据变换可用相当少的变量来捕获原始数据的最大变化。具体采用哪种变换方法应根据涉及的相关数据的属性特点而定，根据研究目的可把定性问题定量化，也可把定量问题定性化。4、数据归约数据归约技术可以用来得到数据集的归约表示，它接近于保持原数据的完整性，但数据量比原数据小得多。与非归约数据相比，在归约的数据上进行挖掘，所需的时间和内存资源更少，挖掘将更有效，并产生相同或几乎相同的分析结果。几种数据归约的方法：（1）维归约：通过删除不相关的属性（或