- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
系统实践
面向工业大数据的数据质量
评价系统设计与实现
唐虎强李宁闫淮岩陈瑞军
摘要:工业大数据资源存在产生源点多、频率高、数据量大、数据结构复杂等特点,而传统的数据库技术无法
满足企业对数据质量管理需求。针对企业历史、增量、实时感知等海量多源异构数据,提出一种高时效、精准
化、多维度的数据质量评价方法,构建一套可灵活配置、具备高效数据处理性能及高可扩展性的数据质量评价
系统解决方案,满足企业对海量数据质量自动化管理的需要,推动数据治理体系的完善。
关键词:数据质量;质量评价;数据治理;大数据技术
一、前言是数据质量还停留在定性评价,不能实现精确的量化评
数据治理是企业数据化转型的首要战略重点之一,价,导致数据质量考核缺乏可信的数据依据,大大影响
而数据质量是数据治理中重要的一把标尺,高质量的数考核力度;四是数据质量控制分散在各个业务信息系统
[1]
据对企业管理决策、业务支撑都有极其重要的作用。目内部,无法快速响应业务变化的需要。
前工业企业数据资源存在多种来源,包括历史信息系统、
智能感知设备、第三方供应商等,这些数据存在着产生二、全局数据质量评价指标体系定义
源点多、频率高、数据量大、数据结构复杂等特点,为数据质量评价指标是企业进行数据质量度量的一
数据质量的准确评价带来新的技术挑战。数据质量管理种途径和标准,企业数据质量管理组织需要从企业数据
的目的是通过提升数据的完整性、准确性和真实性,为治理的全局高度出发,结合现实的业务需要,构建涵盖
企业提供坚实、可靠的数据基础,提升数据的使用价值,数据一致性、准确性、完整性、及时性等质量特性的评
对企业的日常经营、精准营销、管理决策、风险管理等价指标体系,实现从传统、局限在信息系统内部的质量
领域发挥积极有效作用。管理向横跨多个业务的、全局性、一致性的质量管理转
现阶段,企业为了保证数据质量主要采用信息系统变。为了避免单个指标涵盖面较大难以定量分析的问题,
内部设置数据质量校验规则与人工辅助巡检相结合的方可针对企业内部每一个质量关注点,定义细粒度的质量
式,但是依然存在着较多数据质量问题,典型的有记录评价指标。如针对企业关注的异常数据,分别定义数据
不全、数据遗漏、数据错误、多义字段、矛盾值、违背缺失率、数据误差率、数据重复率、数据迟到率等指标,
业务规则、无法关联等。主要原因可以归纳为以下几个通过存在异常数据的记录与总记录数的占比来计算具体
方面:一是由于没有从数据资源的战略高度对数据质量的指标值,有效降低数据质量分析的难度。
进行统一完整的定义,导致数据的分析评价没有统一可数据质量评价指标通过执行质量约束规则来计算。
靠的标准;二是数据质量分析主要采用传统数据库技术质量约束规则描述了数据体应遵守的质量要求,如数据
实现,无法满足对海量高吞吐数据实时分析的需要;三长度、精度、格式等。系统通过执行质量约束规则来检
008信息系统工程
系统实践
图1数据对象模型逻辑结构图
文档评论(0)