- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
关于Web大数据质量管理问题剖析
关于Web大数据质量管理问题剖析
摘要:大数据技术在我国各大行业中都有广泛的应用,而在大数据技术应用的过程中数据质量的好坏直接影响到应用服务的性能,所以一定要保证数据的质量。本文通过分析大数据的兴起和发展历程,然后介绍其特点,分析Web大数据质量管理的主要流程,最后对大数据质量管理的方法进行介绍,希望通过本文可以对我国Web大数据质量管理问题进行有效的解决。
关键词:大数据;数据质量;数据清洗
中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2018)01-0224-02
随着互联网、移动通信的普及,21世纪信息的传播途径变得多种多样,人们每时每刻都处在信息化的环境中。这就要求必须扩大传统的数据储存容量,确保数据传播的高效性、安全性、完整性,而且数据的产生量每年正在不断增长,这标志着大数据时代的到来。大数据具有体量大、种类繁多、价值密度低、处理速度快等特征。近年来,Web大数据质量管理问题逐渐显现,如何有效的解决大数据质量管理问题成为我国急需解决的问题,本文基于这一问题展开讨论,从而有效的促进我国大数据质量管理的快速发展。
1 大数据的兴起和特点
大数据在2012年受到越来越多人的提及,随后大数据在各个领域得到了广泛的应用,包括物理学、环境生态学以及军事、金融等行业。大数据之所以在近几年得到快速的发展和应用,是因为它有着以下特点:第一,使开源软件得到广泛的应用,随着大数据的不断发展,开源软件受到越来越多人的青睐,主要是因为大数据相关技术和软件都需要开源软件的开发。第二,大数据应用了很多人工智能技术,智能化程度高,大数据主要是从诸多数据中获取最有用的数据,然后对数据进行分析和处理,达到最终目的。但是在这个信息量超大的时代,如何对数据进行有效的过滤,从而筛选出最有用的信息就需要应用人工智能技术,不仅能提高数据分析和处理的效率,还能保证数据的准确性。第三,大数据有很强的变化性,随着数据的不断增多,其数据库也会发生很大的改变,因此需要及时更新数据库,保证大数据的准确性。第四,数据量大,大数据是将某一行业所有的数据结合起来,所以大数据中往往包含大量的数据。第五,数据类型多种多样,大数据会收集多种不同类型的数据进行整合,所以在进行处理和分析的时候能有效的提高处理的效率。
2 Web大数据质量管理流程
大数据环境下的Web数据质量管理是通过对非结构化和半结构化数据进行分布处理的,这种处理方式与传统的处理方式有很大的不同,新型方式能有效的提高数据质量管理的效率和质量,一般来说Web大数据质量管理流程主要分下面几个步骤:
第一,数据抓取。通过多台服务器进行数据的收集和抓取,系统自动分配服务器的负责区域,然后对网络中的所有Web数据进行全面性的抓取,并且在抓取的过程中要尽可能的保证数据的时效性和可靠性。最后将抓取到的信息进行收集,并且储存到系统中。
第二,预处理。当服务器抓取道路相应的信息和数据之后,系统会对Web数据进行一个预处理,从而更加有效的保证数据的准确性。在预处理的过程中首先会对错误的数据和信息进行筛选,然后对数据进行标准化,最后通过相应的函数将数据进行统一,保证Web数据的全面性。
第三,数据清洗。数据清洗是Web大数据质量管理过程中最重要的一步,系统会根据预处理之后的数据进行优化,然后对一些存在问题或者异常的数据进行清洗,保证数据的纯度。另外,在传统的数据清洗过程中,需要工作人员手动进行清洗,但是利用先进的技术可以直接进行自动化的清洗,保证数据清洗工作的效率和质量。
第四,质量评估。完成数据清洗之后需要对清洗之后的数据进行一个有效的评估,判断数据是否含有重复、错误或者敏感词等等,通过判断之后才能进行下一步骤,所以说对数据的质量评估也是很重要的。
第五,监控反馈。整个Web大数据质量管理流程是一个循环的过程,在完成一次数据的质量管理过程中都有实时的监控反馈步骤,而且在每一个环节都有相应的监控和反馈,通过这样可以有效的提高数据质量管理的效率。
3 大数据质量管理方法和措施
3.1 数据存储服务优化
大数据时代的到来,使传统模式下的数据存储无法满足,传统数据存储模式受时间和空间的限制,储存容量小,处理能力慢,无法满足大数据体量大、离散复杂的特点,传统数据运行速度无法跟上现代人们对数据处理的要求和需要。而云计算采用分列式存储方式,将不同属性的数据分类存储,方便通过属性查询来及时提取数据,大大提高了数据处理的效率,降低数据存储空间,实现对数据的压缩处理,减少盲目查询造成的时间浪费。
3.2 数据质量问题及处理方法
我国大数据质量管理的过程中还存在诸多问题,严重的影响了我国大数据质量管理过程,因此,需要对质量
您可能关注的文档
最近下载
- 卓越研究生英语(人文篇)综合教程1--Unit 4_new.pptx VIP
- 湖南省师范大学附属中学2025-2026学年高三上学期10月月考英语试题(含答案).docx VIP
- 2026华能西安热工研究院校园招聘考试备考题库及答案解析.docx VIP
- 《企业内部控制》教学课件最终版 7.投资活动课件新 7.8第七章企业投资活动内部控制的流程.ppt VIP
- 2025年河南地矿职业学院单招职业技能测试题库附答案(a卷).docx
- TB-T30010-2023铁路信号显示规范.pdf VIP
- 《管理会计实务》习题答案.pdf VIP
- 2.2 会计要素 - 负债.pptx VIP
- 打击网络诈骗 加强自我保护---主题班会课件.pptx VIP
- 国家安全法知识竞赛题库及答案.docx VIP
原创力文档


文档评论(0)