- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
?
?
大数据背景下数据质量管理优化对策
?
?
摘要:随着我国经济社会发展,在一定程度上也促进了我信息化技术及互联网技术水平的提升,对带动数据量的增长以及数据类型的增多起着积极的作用,大大提高了数据的复杂性,对我国社会朝着数据化时代的发展有着重要的意义。对此,要想使大数据的应用价值得到充分的发挥,就应做好对数据质量的管理工作,保证数据传输的稳定性和安全性。笔者通过对大数据特征的研究,对现阶段我国数据质量管理所面临的各种问题提出积极的解决对策。
关键词:大数据;数据质量管理;元数据管理
引言:
通过对大数据进行科学管理和有效利用,能够促进决策制定的合理性,通过应用大数据中有价值的信息,从而促进各项工作的顺利完成。但在由于大数据的数量和种类较多,在这些冗杂的信息中往往会存在一些无用信息,对数据的质量带来严重的影响,从而降低了信息价值,使其优势也会受到影响。要想通过优化管理来促进数据质量的提升,是当下我国大数据时代所应思考的重要的问题,并需对其进行广泛的关注。
1大数据背景下数据质量管理面临的问题
1.1计算难度较大
由于大数据自身存在一定的特点,因此在对其进行质量管理的过程中,应选择使用线性及亚线性算法对其时间及空间的复杂水平展开合理的确定。为了更好的促进运算水平的提升,应结合并行算的方式,从而使数据的质量和算法的准确性都能得到保证,这也使计算的难度得到极大的提升。就现阶段我国数据质量管理现状来看的话,没有对数据的可扩展性展开综合的考虑,无法适应数据量等级需要[1]。
1.2缺乏知识支撑
由于大数据具有一定的多样性且价值密集度不高,因此要想提高其利用效率就应展开全面深入的分析,但当下在尽心各项数据质量管理的过程中,所采用的各项参数及其规则都是通过专家来决定的,自动错误检测修复及规则学习算法需要主数据或清洁的训练集。这也会耗费大量的维护费用,对于所选择则的训练集,现阶段来看还有没建立一个完整的计算方式,无法对其提供有效的支撑,无法适应数据质量管理的需要。
1.3容易出现错误
由于大数据自身存在一定的复杂性,在保存及传输过程中容易出现错误的现象,使数据的准确性受到改变,无法将其应用效果得到充分的发挥。由不同类型数据的数据并不是被独立进行划分的,它们都有着一定的关联,一旦出现错误现象,将会影响整个数据质量,从而降低其精准度,但当下我国所采取使数据质量管理的方式还并不完善,只能够对一些特定的错误进行处理,无法对一些关联性的错误展开良好的管理效果[2]。
2大数据背景下数据质量管理优化对策
2.1构建数据质量评价体系
图1数据质量体系
只有做好质量评估体系的完善工作才能从根本上来保证数据管理的规范性,并且数据质量的维度体系的内容较多,如图1所示,在进行数据质量评价体系构建的过程中应尽量从这几方面进行考虑。首先,可以集合唯一值以及记录数来对数据的完整性进行判断,在对其进行属性衡量的过程中,结合为空值所占比例;其次,在校验数据准确性的过程中,应合理的分析数据的准确性,如定义范围准确,值有无存在意义等,这些都是常见的数据错误行驶,此外,对于及时性的检验,可以结合时间间隔来对其进行合理的判断,从而更好的确定数据能否出现延时的现象;最后,在对数据一致性进行衡量的过程中,所用依据为合规记录所占比例,而对于逻辑关系的判定,则可结合合规率来进行合理的判断分析,根据所建立数据质量评价体系,并通过量化指标的方式展现出数据质量,如果出现异常数据时应立即进行警报,从而可以在短时间内找到异常数据的具体位置,并及时进行处理,避免对其他数据质量造成影响[3]。
2.2构建大数据质量知识库
大数据质量管理作为一项持续性的工作,要想在短时间对处理数据质量的问题并保证其精准度,就应构建一个完整的大数据质量知识库,从而积累丰富的经验。一方面,应做好不同类别的数据质量问题的整理工作,斌将其纳入到大数据质量知识库中,经过长时间的累计充实知识库,即便是再出现类似的数据质量问题时,知识库可以为其提供较为合理的解决方案,促进数据质量管理工作的顺利开展,提高对数据质量问题的处理效率;另一方面,应结合数据质量管理参数及规则,增强对训练集自动选取算法的研究力度,实现大数据知识库的智能、主动学习,从而实现对异常数据展开自动化的检测方式,即便遇到复杂的数据也可以很好的进行处理[4]。
2.3重视并落实元数据管理
元数据的本质是用来进行表述数据,在对数据质量管理过程中,应不断提高对元数据的管理。元数据大体上可分为业务类、管理类及技术类等三方面内容,管理流程、岗位职责等描述概念、规则、关系的数据,均可将其看作管理元数据。而技术元数据主要包括开展数据结构的描述、处理过程的数据等,牢牢把握住整个消费和生产的过程;而业务术语以及业务规则等内容,可将其看作业务元数据,在进行数据质量管理的过程中应不断
文档评论(0)