大数据环境下数据质量管理、评估与检测关键问题研究.docxVIP

大数据环境下数据质量管理、评估与检测关键问题研究.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

大数据环境下数据质量管理、评估与检测关键问题研究

随着信息社会的不断发展,信息系统中充斥着海量的、多结构的、多维度的数据资源,大数据价值已被社会全面认可,如何挖掘数据价值已成为各研究领域和各行业应用领域最为关心的问题。数据究竟是垃圾还是宝藏,最重要的问题是所要分析挖掘的数据是否是高质量的,一个低质量的数据来源会使得不仅无法体现数据价值,而且可能会与实际情况背道而驰,反而起到了副作用。目前,国内外研究机构和学者针对数据质量管理与检测问题提出了多种方法论和框架,但在实际应用当中缺乏具体执行手段,使得数据质量管理实行起来困难重重。

针对数据质量管理、评估和检测的关键问题,本文做了以下工作:(1)针对数据质量管理问题,本文通过对目前国内外主流数据管理方法和框架进行了深入对比和分析,梳理出数据质量管理的通用方法流程和指标体系。提出了六项重要数据质量指标的度量方法,并提出了计算公式,为数据质量管理和评估提供了有效指导。同时,针对数据质量管理的执行情况提出了数据质量成熟度模型,为数据质量的整体评价提供了参考依据。

针对数据预处理问题,本文提出了一种数据离散化预处理算法。在大数据环境中,数据产生和更新频率不断加快,更多的数据是以连续方式进入信息系统,需要进行离散化处理才能够被信息系统所处理,离散化处理效率和效果对于后续数据质量检测和评估工作起到至关重要的作用。因此,本文提出了一种高效、准确的数据离散化处理算法(ICACC,Improvedclass-attributecontingencycoefficientMethod),能够有效提升大数据应用当中连续数据转换成离散数据进行处理时的效率和准确性,算法经过实验验证相比于传统处理算法准确率提升10%。

针对数据质量检测问题,差异性检测和完整性检测是两个最主要的方面,本文提出了两种检测方法。针对数据差异性检测问题,离群值检测是一个重要研究内容,无论在离群值的识别、过滤还是对于离群值本身的应用上都具有重要的意义。传统的离群值检测需要数据分析师和工程师基于经验或者原有的业务规则来识别数据中的离群值,这不仅是一个非常耗时的过程,而且精度很低,并且大大限制了信息系统。

因此,本文提出了一种将深度学习方式和统计过程控制相结合的数据质量差异性检测方法(M-SPC,Machine—Statisticsprocedurecontrol),可以利用神经网络算法和过程控制来进行离群值数据检测,经过试验数据验证效果明显。针对数据完整性检测,本文通过对数据的重要性、网络繁忙程度以及传输过程历时、故障情况等因素的综合检测,设计了一种基于随机算法和MD5加密算法的自适应数据完整性检测方法。经过实验验证,该方法能够有效检测数据传输过程中的完整性程度,提高数据价值的应用体现。

针对数据质量评估问题,数据有效性评估是目前最为关注的方面。如何从纷繁复杂的海量数据中找到可用数据,对于处理系统本身的效率和数据应用价值至关重要,机器学习算法的特性和数据处理方式非常适用于处理此类问题。针对此问题,本文针提出了一种数据有效性评估算法(MKS,MSTK-meansSlopeone),并通过加入时间权重,提升原始数据在实际应用中的有效性,最后通过了实验验证。

特别说明,数据质量管理与检测不同于QOS(服务质量)检测,RFC3644中对于QOS有明确规定,特指网络利用各类基础技术,为网络通信及应用提供更好服务能力,也是一种网络安全机制,目的是解决网络的延迟、阻塞等问题。而本文的数

据质量管理与检测,专指针对数据质量整体框架、流程和评价维度的方法论及实现方式进行研究。

文档评论(0)

hao187 + 关注
官方认证
文档贡献者

该用户很懒,什么也没介绍

认证主体武汉豪锦宏商务信息咨询服务有限公司
IP属地上海
统一社会信用代码/组织机构代码
91420100MA4F3KHG8Q

1亿VIP精品文档

相关文档