- 47
- 0
- 约8.3千字
- 约 6页
- 2020-11-10 发布于山东
- 举报
数据清洗研究综述
随着信息处理技术的不断发展, 各行各业已建立了很多计算机信息系统,
积累了大量的数据。
为了使数据能够有效地支持组织的日常运作和决策,
要求数据可靠无误, 能够准确地反映现
实世界的状况。数据是信息的基础,好的数据质量是各种数据分析如
OLAP、数据挖掘等有
效应用的基本条件。人们常常抱怨“数据丰富,信息贫乏”
,究其原因,一是缺乏有效的数
据分析技术,二是数据质量不高,如数据输入错误、不同来源数据引起的不同表示方法,数
据间的不一致等, 导致现有的数据中存在这样或那样的脏数据。
它们主要表现为: 拼写问题、
打印错误、不合法值、空值、不一致值、简写、同一实体的多种表示
(重复 )、不遵循引用完
整性等。
数据清洗 (Data Cleaning,Data Cleansing 或者 Data Scrubbing)的目的是检测数据中存在的错误
和不一致,剔除或者改正它们,以提高数据的质量 [1] 。
数据清洗国内外研究现状
数据清洗主要在数据仓库、数据库知识发现
(也称数据挖掘 )和总体数据质量管理这
3 个领域
研究较多。 在数据仓库研究和应用领域,
数据清洗处理是构建数据仓库的第一步,
由于数据
量巨大,不可能进行人工处理,因此自动化数据清洗受到工商业界的广泛关注。
1.1 国外研究现状
国外对数据清洗的研究最早出现在美国,是从对全美的社会保险号错误
您可能关注的文档
最近下载
- 2026四川省职业技能鉴定指导中心招聘编外人员4人备考题库附答案详解.docx VIP
- 桥梁检测与评估讲解199页.ppt VIP
- GB_T24001-2016:环境管理体系要求及使用指南.pdf VIP
- 2025年人工智能智能农业课件.pptx VIP
- 花城出版社高中音乐鉴赏走近舞蹈课件.ppt VIP
- 2025年四川语文专升本考试真题及参考答案.docx VIP
- 《零售药店实务》期末考试复习题及答案.pdf VIP
- 统编版(2024)新教材小学三年级语文下册第一单元第1课课后作业-《古诗三首》.docx VIP
- 《腰椎间盘突出症诊疗指南》.docx VIP
- 脑洞大开背后的创新思维(大连理工大学)超星尔雅学习通网课章节测试答案.docx VIP
原创力文档

文档评论(0)