大数据清洗算法研究与系统平台搭建.docxVIP

下载本文档

12
0
约1.38千字
约 2页
2020-10-29 发布于山东
举报

大数据清洗算法研究与系统平台搭建.docx

大数据清洗算法研究与系统平台搭建数据清洗一直是数据分析和数据挖掘领域的一个重要问题 , 特别在信息快速增长的时代 , 每天会产生大量的数据 , 数据的海量性与数据质量的复杂性一直是数据分析与数据挖掘工程师所面临的挑战。随着互联网的兴起 , 很多传统行业利用互联网的优势来提高工作效率 , 而原有数据存储分散而且规范不统一 , 在对数据进行整合的过程中 , 难免会出现一些错误录入或者重复录入的现象 , 例如企业的数据库中同一实体可能存在不同的标识 , 不同的记录方式。如果不能对这些数据进行有效地清理 , 将阻碍后续分析工作的开展 , 会使企业在做重大决策时不可避免出现偏差 , 从而造成重大的经济损失。目前 , 很多传统企业对数据质量的问题大多只是简单地进行了消除重复项和空白项地处理 , 或者是基于大量服务器协同计算所做到的企业级算法 , 虽然性能优良 , 但是相对来说成本大、维护难度高。而本文意在提供一种针对大数据量的清洗方案 , 用于检测相似重复数据 , 并且对确认重复的数据进行删除 , 对录入错误的数据进行修改 , 从而达到数据清洗的目的。解决了现阶段的数据清洗方法单一化和简单化的问题。本文先概述了国内外一些数据清洗领域的发展现状 , 以及目前所面临的一系列问题和要实现数据清洗算法的意义。随后提出了一种数据清洗中的数据聚合算 , 该算法主要分成三个部分 , 即文本相似度比较 , 数据文本分割以及文本内的数据计算 , 并对各个部分进行了详细阐述。在文本相似度比较上 , 利用了在生物信息学领域常用的遗传信息序列比对技术来计算两个文本的相似概率 , 分析和概述了现在比较流行的几个计算文本相似度算法的思路以及具体的实现细节 , 即 Levenshtein 算法和 SmithWaterman算法。通过对文本相似度算法的性能对比 , 从而选取了时间复杂度和计算效果两方面更优良的文本相似度算法作为数据清洗中的数据聚合算法的一部分。在对数据文本分割问题上 , 本文采用自然语言处理、信息检索和数据挖掘领域中常用的词频和逆文本频率算法 , 并以此为基础设计了一个文本分割算法 , 作为数据文本分割的依据。从而将大数据文本切分成多个小文本进行计算。本文概述了词频和逆文本频率的概念 , 算法的思路以及具体的实现细节 , 同时详细阐述了算法改进过程 , 以实现对大数据文本的分割处理。在对文本内的数据计算上 , 本文也提出了三种不同的方案 , 分别是利用文本存储 , 数据库存储和利用并行计算 , 这三种解决方案。根据这三种方案的思路进行了编码并且设计了对照实验来对比其性能 , 从而选择了性能更好的并行计算方案。本文以真实的工业级数据作为测试数据 , 大量的实验结果验证了本文算法的效果 , 此算法的时间复杂度具有明显的优势。最后 , 依据该数据清洗中的数据聚合算法 , 本文搭建了大数据清洗平台 , 能够使用户通过简单的操作即可完成对相似重复数据的聚合 , 并且修改错误数据和删除重复数据 , 下载清洗后的结果文件。该平台使得简单、高效、易操作的数据清洗成为可能 , 从而完成了大数据量级的清洗工作 , 为解决棘手的数据质量问题提出了一种切实可行的方案。

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

大数据清洗算法研究与系统平台搭建.docxVIP