- 16
- 0
- 约3.81万字
- 约 7页
- 2016-11-14 发布于安徽
- 举报
科技导报2014,32(34)
大数据质量管理大数据质量管理::问题与研究进展问题与研究进展
王宏志
哈尔滨工业大学计算机科学与技术学院,哈尔滨 150001
摘要摘要 当前大数据在多个领域广泛存在,大数据的质量对其有效应用起着至关重要的作用,因而需要对大数据进行质量管理。
尽管数据质量管理方面已经有一些研究成果,但由于大数据具有规模大、速度快和多样性高的特点,现有的方法难以适用于大数
据质量管理。本文针对错误发现、错误修复和劣质数据查询处理,综述了大数据质量管理的问题与挑战,认为大数据质量管理的
挑战主要有计算困难、错误混杂和缺少知识3个方面。本文依据这3个方面的解决方法,对大数据质量管理目前的研究进展进行
了综述,并展望了大数据质量管理未来的研究方向。
关键词关键词 数据质量;大数据;数据清洗
中图分类号中图分类号 TP311.13 文献标志码文献标志码 A doidoi 10.3981/j.issn.1000-7857.2014.34.011
BigDataQualityManagement:ProblemsandProgress
WANGHongzhi
DepartmentofComputerScienceandTechnology,HarbinInstituteofTechnology,Harbin 150001,China
AbstractAbstract Bigdatahavewideapplications.Sincethequalityofbigdataplaysacrucialroleinthesedata-centricapplications,data
qualitymanagementtechniquesforbigdataareindemand.Althoughsometheoriesandtechniquesfordataqualitymanagementhave
beenproposed,duetothevolume,varietyandvelocityofbigdata,currentmethodscouldhardlybeappliedtodatamanagementfor
bigdata.Thispaperdiscussestheproblemsandchallengesforerrordetection,errorrepairandqueryprocessingofdirtydatainbig
data management, and identifies intractability, mixed errors and the lack of knowledge as three new challenges to data quality
management.Theprogressofbigdataqualitymanagementinthesethreeaspectsisreviewedandopenproblemsforfutureresearch
areproposed.
KeywordsKeywords dataquality;bigdata;datacleaning
当前,大数据得到了广泛应用,对科学和产业产生了巨 致成本极其巨大以致难以有效实施。
大影响。关于大数据的准确定义,科学界仍缺乏统一认识, 2)由于高速性,数据的大量更新会导致过时数据迅速产
从字面上理解,其最本质的特点在于数据量“大”,除此之外, 生,也更易于产生不一致数据,为人工错误检测与修复带来
还包括了获取、管理及处理时的复杂性。大数据具有明显的 困难。例如,大型强子对撞机实验设备中包含了15亿个传感
时代特征,习惯上将其总结为4个“V”:规模性(volume),高速 器,平均每秒收集超过4亿条实验数据,更新的数据将会导致
性(velocity),多样性(variety)和价值稀疏性(value)。由于大 之前存储数据迅速过时,而在更新速度如此快的情况下,传
数据的这些特征,使其有更大可能产生数据质量问题,即出 统方法难以有效用新数据替换对应的旧数据。
现不一致、不精确、不完整、过时等问题或者描
原创力文档

文档评论(0)