完整word版数据清洗综述.docxVIP

  • 47
  • 0
  • 约8.3千字
  • 约 6页
  • 2020-11-10 发布于山东
  • 举报
数据清洗研究综述 随着信息处理技术的不断发展, 各行各业已建立了很多计算机信息系统, 积累了大量的数据。 为了使数据能够有效地支持组织的日常运作和决策, 要求数据可靠无误, 能够准确地反映现 实世界的状况。数据是信息的基础,好的数据质量是各种数据分析如 OLAP、数据挖掘等有 效应用的基本条件。人们常常抱怨“数据丰富,信息贫乏” ,究其原因,一是缺乏有效的数 据分析技术,二是数据质量不高,如数据输入错误、不同来源数据引起的不同表示方法,数 据间的不一致等, 导致现有的数据中存在这样或那样的脏数据。 它们主要表现为: 拼写问题、 打印错误、不合法值、空值、不一致值、简写、同一实体的多种表示 (重复 )、不遵循引用完 整性等。 数据清洗 (Data Cleaning,Data Cleansing 或者 Data Scrubbing)的目的是检测数据中存在的错误 和不一致,剔除或者改正它们,以提高数据的质量 [1] 。 数据清洗国内外研究现状 数据清洗主要在数据仓库、数据库知识发现 (也称数据挖掘 )和总体数据质量管理这 3 个领域 研究较多。 在数据仓库研究和应用领域, 数据清洗处理是构建数据仓库的第一步, 由于数据 量巨大,不可能进行人工处理,因此自动化数据清洗受到工商业界的广泛关注。 1.1 国外研究现状 国外对数据清洗的研究最早出现在美国,是从对全美的社会保险号错误

文档评论(0)

1亿VIP精品文档

相关文档