大数据清洗算法研究与系统平台搭建.docxVIP

  • 12
  • 0
  • 约1.38千字
  • 约 2页
  • 2020-10-29 发布于山东
  • 举报

大数据清洗算法研究与系统平台搭建.docx

大数据清洗算法研究与系统平台搭建 数据清洗一直是数据分析和数据挖掘领域的一个重要问题 , 特别在信息快速 增长的时代 , 每天会产生大量的数据 , 数据的海量性与数据质量的复杂性一直是 数据分析与数据挖掘工程师所面临的挑战。随着互联网的兴起 , 很多传统行业利 用互联网的优势来提高工作效率 , 而原有数据存储分散而且规范不统一 , 在对数 据进行整合的过程中 , 难免会出现一些错误录入或者重复录入的现象 , 例如企业 的数据库中同一实体可能存在不同的标识 , 不同的记录方式。 如果不能对这些数据进行有效地清理 , 将阻碍后续分析工作的开展 , 会使企 业在做重大决策时不可避免出现偏差 , 从而造成重大的经济损失。 目前 , 很多传统 企业对数据质量的问题大多只是简单地进行了消除重复项和空白项地处理 , 或者 是基于大量服务器协同计算所做到的企业级算法 , 虽然性能优良 , 但是相对来说 成本大、维护难度高。 而本文意在提供一种针对大数据量的清洗方案 , 用于检测相似重复数据 , 并 且对确认重复的数据进行删除 , 对录入错误的数据进行修改 , 从而达到数据清洗 的目的。解决了现阶段的数据清洗方法单一化和简单化的问题。 本文先概述了国内外一些数据清洗领域的发展现状 , 以及目前所面临的一系 列问题和要实现数据清洗算法的意义。 随后提出了一种数据清洗中的数据聚合算 , 该算法主要分成三个部分 , 即文本相似度比较 , 数据文本分割以及文本内的数据计算 , 并对各个部分进行了详细阐述。 在文本相似度比较上 , 利用了在生物信息学领域常用的遗传信息序列比对技术来计算两个文本的相似概率 , 分析和概述了现在比较流行的几个计算文本相似 度算法的思路以及具体的实现细节 , 即 Levenshtein 算法和 SmithWaterman算法。 通过对文本相似度算法的性能对比 , 从而选取了时间复杂度和计算效果两方面更 优良的文本相似度算法作为数据清洗中的数据聚合算法的一部分。 在对数据文本分割问题上 , 本文采用自然语言处理、信息检索和数据挖掘领 域中常用的词频和逆文本频率算法 , 并以此为基础设计了一个文本分割算法 , 作 为数据文本分割的依据。从而将大数据文本切分成多个小文本进行计算。 本文概述了词频和逆文本频率的概念 , 算法的思路以及具体的实现细节 , 同 时详细阐述了算法改进过程 , 以实现对大数据文本的分割处理。在对文本内的数 据计算上 , 本文也提出了三种不同的方案 , 分别是利用文本存储 , 数据库存储和利 用并行计算 , 这三种解决方案。 根据这三种方案的思路进行了编码并且设计了对照实验来对比其性能 , 从而 选择了性能更好的并行计算方案。本文以真实的工业级数据作为测试数据 , 大量 的实验结果验证了本文算法的效果 , 此算法的时间复杂度具有明显的优势。 最后 , 依据该数据清洗中的数据聚合算法 , 本文搭建了大数据清洗平台 , 能够 使用户通过简单的操作即可完成对相似重复数据的聚合 , 并且修改错误数据和删 除重复数据 , 下载清洗后的结果文件。该平台使得简单、高效、易操作的数据清 洗成为可能 , 从而完成了大数据量级的清洗工作 , 为解决棘手的数据质量问题提 出了一种切实可行的方案。

文档评论(0)

1亿VIP精品文档

相关文档