网站大量收购独家精品文档,联系QQ:2885784924

提高信息系统数据质量方法.docVIP

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
提高信息系统数据质量方法

提高信息系统数据质量方法   摘要:随着社会的发展与进步,重视提高信息系统数据质量的方法具有重要的意义。本文主要介绍提高信息系统数据质量的方法的有关内容。   关键词信息 系统 数据 质量 技术   Abstract: along with the development of social development and progress, pay attention to improving the quality of the information system data method has the vital significance. This paper mainly introduces the information system of data quality improving the relevant contents of the method.   Key words; information system data quality technology         中图分类号:O213.1 文献标识码:A 文章编号   引言    随着信息处理技术的不断发展,各行各业已建立了很多计算机信息系统,积累了大量的数据。为了使数据能够有效地支持组织的日常运作和决策,要求数据可靠无误,能够准确地反映现实世界的状况。数据是信息的载体,好的数据质量使各种数据分析(如OLAP分???、数据挖掘等)能够得到有意义结果的基本条件。人们常常抱怨所谓的“数据丰富,信息贫乏”,其中一个原因是缺乏有效的数据分析技术,而另一个重要原因则是数据质量不高,如数据残缺不全、数据不一致、数据重复等,导致数据不能有效地被利用。数据质量管理如同产品质量管理一样贯穿于数据生命周期的各个阶段,但目前尚缺乏一个系统的思路。数据质量的研究由来已久,涉及到统计学、人工智能、数据库等各个领域。   1.数据质量问题对信息系统的影响    数据质量引发的问题是多方面的,下面就一些常见的质量问题分析它们的后果。   (1)填充无意义的默认值。有些数据可能没有具体的值,例如一个职工没有参加社会保障,则其档案中相应的社会保障号码一栏就会为空。在旧式文件系统中“空”的概念就是什么都没有,这是不容许的。对这种情况,数据输入程序和输入人员往往会造出一个值来填充,他可能会选择一个无意义的数据,或有意无意填充一个特殊的数据,这样用户在查询该项数据时,产生不信任感,同时也会造成系统安全的隐患。   (2)数据遗漏。不同的业务部门对数据有不同的需求,以便执行它们的业务操作,某些业务在系统开发时可能还未开展,或是并不重要,这些因素会造成数据遗漏,例如有关读者的年龄、种族、爱好等数据,在办理图书资料借阅流通业务时是用不到的,然而在对读者进行主动信息服务时却非常重要,这类数据的缺省将造成对读者资料分析或查询结果的障碍或曲解,使得无法准确地分析读者的信息需求,无法准确判断哪一种服务方式对读者最具吸引力,进而影响到改进图书馆服务方式的战略决策。   (3)违背业务规则的矛盾值。包括明显违背业务规则的不准确、不合逻辑的数据值,或是在根据记录中的其他字段值来生成某些字段值时发生了错误和矛盾的数据值。例如浮动利率贷款的最低利率居然高于最高利率,那么按最低利率计算贷款利息时,公司实际上蒙受了损失。又如,例如一个北京的公司被错误地赋予了一个武汉地区的邮政编码,在按地域统计公司的业务信息时,就会导致错误结论。   (4)多义数据项。表现在数据库和文件中,同一数据项(即字段)被定义为许多不同的意义,或是数据项的值被用于多个目的。例如某数据项原来定义的是日期类型,又重定义为字符串类型,这样在处理过程中就会发生冲突或混乱,造成错误,而单纯地去除重定义又可能发生数据遗漏问题。数据项的重用会给查询带来麻烦,例如值A、B、C可能代表业务部门类型码,如“采编部”、“流通部”、“服务部”,而值x、Y、z可能代表读者类型码,如“教师”、“学生”、“职工”,那么在查询或对业务部门进行排序时,必须排除x、Y、z。如果没有弄清数据项的值域或当前使用的排除规则,错误地纳入或排除了某个值,查询结果将会出错,而且用户不会意识到。   (5)键码残缺或重复。应该关联的数据没有关联,即由于考虑不周全或出于困难没有建立联结两个对象的键码,例如,每一位新客户在银行都会分配一个惟一的账号,但很少有银行为每一位客户分配一个客户号,这样账号只能通过账户记录中的客户姓名与客户发生关系,而客户姓名缺乏惟一性,想查询账户与客户的相互关系就很困难。另一个极端是一个对象被多个键码所标记。如一个员工拥有几个员工号,因为他在几个部门中工作过,每次更换工作就分配一个新的员工号,而旧的员工号又可能被再次分配给他人,

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档