- 289
- 0
- 约7.86万字
- 约 60页
- 2015-11-25 发布于安徽
- 举报
数据质量和数据清洗关键技术研宄 摘要
摘要
,
f
时于各个领域的信息资源管理而言,数据质量一直是一个非常关键的问题。
而现实世界中的数据往往存在着各种各样的质量问题,从简单的拼写错误到复杂
的语义不一致错误。数据清洗的目标就是检测并去除数据中存在的各种错误和不
”一致,提高数据的质量。在信息技术高速发展的今天,各行各业都越来越依赖于
Out”的道理,数据清洗的研
In,Garbage
各种各样的信息系统。由步“Garbage
究也显得越来越重要。y
本文在归纳、总结了数据质量问题和数据清洗相关研究的现状的基础上提出
一个可扩展的数据清洗框架的定义和一个检测多语言数据重复记录的综合方法,
并以此为基础实现了一个数据清洗系统EDCF。
具体地说,本文的贡献如下:
1.提出了一个可扩展的数据清洗框架的定义。框架以术语模型、处理描述文件、
共享库等概念
原创力文档

文档评论(0)