数据清理关键技术及其软件平台的研究与应用教程.docVIP

  • 2
  • 0
  • 约4.59万字
  • 约 53页
  • 2017-05-04 发布于湖北
  • 举报

数据清理关键技术及其软件平台的研究与应用教程.doc

数据清理关键技术及其软件平台的研究与应用教程

数据清理关键技术及其软件平台的研究与应用 第一章 绪 论 1.1 引 言 我国目前正在大力推广信息技术,实施各行各业的信息化工程。随着信息化建设的不断深入,企事业单位积累了大量的电子数据,这些数据非常重要。为了使信息系统中的数据更准确、一致,能支持正确决策,就要求所管理的数据准确、可靠。因此,企业数据质量的管理正在获得越来越多的关注。但是,由于各种原因,如数据录入错误、不同来源数据引起的不同表示方法、数据间的不一致等,导致企业现有系统数据库中存在这样或那样的脏数据,主要表现为:不正确的字段值、重复的记录、拼写问题、不合法值、空值、不一致值、缩写词的不同,不遵循引用完整性等。根据“进去的是垃圾,出来的也是垃圾(garbage in,garbage out)”这条原理,若不进行清理,这些脏数据会扭曲从数据中获得的信息,影响信息系统的运行效果,也为企业构建数据仓库、建立决策支持系统、应用商务智能带来隐患。显见,数据清理问题的重要性是不言而喻的。另外,从市场上众多的相关产品,也可以明白这一点。然而,由于数据清理本身的一些特点,比如: 数据清理是具体应用问题,经常要具体问题具体分析,难于归纳出通用方法; 数据清理问题的数学建模困难。 因此,目前在学术界,数据清理并没有得到足够的关注,针对这方面的研究也少,有些人甚至认为数据清理是一个需要大量劳动力的过程,而且往往过于依赖特定应用领域。其实不然

文档评论(0)

1亿VIP精品文档

相关文档