一个可扩展的数据质量元模型.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一个可扩展的数据质量元模型

一个可扩展的数据质量元模型(? 管尊友,冯建华 (): 数据质量,质量元模型,质量管理 One Extensible Data Quality Meta Model GUAN Zunyou, FENG Jianhua (Department of computer Science and Technology, Tsinghua University, Beijing,100084) Abstract Data quality status and application requirement of data quality for large-scale enterprise are researched, some issues existed are pointed out, according to these research and high quality data requirement for in large-scale enterprise, an extended data quality control meta model is proposed, this model is an abstract model for enterprise data quality control, which is composed of kernel level, initial level and extensible level. Based on different application requirements, these levels can be extended to satisfy data quality requirement in different level. Now, this architecture model has been applied in information system for Daqing, the practical application shows: this architecture model can provide an integrated and extended function for enterprise data quality control. Keywords Data quality, Quality meta model, Quality management 1 前言 大型企业信息化建设中,集中反映在数据的规划,而目前数据规划的建设反映在数据库建设方面,数据库建设是一项基础性工作。企业数据库建设经过了从小到大,从单一部门到全企业数据集成的过程。在数据集成过程中,最突出的问题就是数据质量问题。建立有效的数据质量控制体系是大型企业信息化建设中一个非常重要的工作。影响数据质量的因素很多,既有管理方面的因素,也有技术方面的因素。无论由哪个方面的因素造成的,其结果均表现在数据库中的数据没有达到预期的质量指标。如何定义数据质量指标,并可通过计算判断数据质量指标是否在指定的范围内是数据质量检测的本质,也是进一步进行数据清洗,提高数据质量的依据。 本文分析了当前有关数据质量的各种特性,对这些特性进行了抽象,提出了一个可扩展的数据质量元模型。该元模型可以从多个层次上对数据库对象进行约束,应用可以根据实际的需求扩展数据质量指标,并以元数据的方式定义数据质量的度量参数。 2 数据质量相关的研究成果和大型企业数据质量特点 为了提高数据质量,许多文献[1]对影响数据质量的因素以及提高数据质量的方法进行了研究。当前主要研究是针对数据仓库中的数据质量问题提出度量数据质量的指标和计算指标的算法,为数据清洗提供依据[2]。 文献[3]以形式化的方法定义了数据的一致性、正确性、完整性和最小性,而数据质量被定义为这4个指标在信息系统中得到满足的程度。文献[4]提出了数据工程中数据质量的需求分析和模型,认为存在很多候选的数据质量度量指标,用户应该根据应用的需求选择其中一部分。文献[5]将数据仓库质量根据用户的不同分为四类:设计与管理质量、数据应用质量\数据使用质量以及数据质量。每一类适用不同的用户,并定义了不同的质量指标,包括正确性、完整性、一致性等。文献[6]将数据质量问题分为4类:单数据源模式层问题、单数据源实例层问题、多数据源模式层问题和多数据源实例层问题。 通过上述分析,我们认为当前对数据质量的研究主要存在以下几个方面的问题: (1)数据质量定义问题:到目前为止,还没有关于数据质量的精确定义[2]。数据质量定义的不统一,导致人们对数据质量理解的多样性,难以提出有效的解决方法,因此,建立数据质量控制体系必须明确数据质量的定

文档评论(0)

haihang2017 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档