信息系统数据梳理方法浅析.docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
信息系统数据梳理方法浅析

信息系统数据梳理方法浅析作者:??吴世旗2007-5-17 13:37:19利用信息技术强化企业管理的新纪元已经开始了。ERP企业资源计划[1][2]和CRM客户关系管理[3][4]以及SCM供应链管理[5]建设的基础是充分利用企业的数据资源。如果缺乏有效的数据信息,其应用水平只能是“无效进、无效出”。为了提升管理效率,公司在存货、供货、客户、零售和其他重要的企业信息方面都需要高质量的数据。否则企业资源计划和客户关系管理的实施是难以成功的。数据梳理技术[6][7]是广泛实施数据应用项目(如实施DSS,?CRM等)的基础,通过数据梳理,可以彻底搞清楚企业现有数据的内容、结构、模式、数据属性、数据质量等至关重要的内容,从而为构建新的数据模式和建立新的管理体系打下基础。1.??数据梳理的内涵一些业务和IT?经理们在研究公司的发展时,都会面对同样的问题。即由于得不到正确的数据,公司会在不完善和不可信的数据基础上做出错误的决策。尽管数据梳理的重要性常常被忽视,可它是开展任何管理活动的基础,企业资源计划的实施、客户关系管理的使用、数据应用开发和管理软件的改写,实际上都应从数据梳理开始。对企业资源计划和数据库应用的工业评估表明,这些项目要么失败,要么超出当时预算的65-70%。几乎在所有的情况下,项目的失败、超支和延长工期都是由同一个问题引起的,即对数据管理活动起关键作用的数据的质量、内容和完整性得不到正确的确认。这些问题在项目开始之前应引起高度重视并得到妥善解决。在数据管理活动最开始阶段就确认数据质量,可以大大降低项目失败的风险。为了迎接信息化建设的挑战,数据梳理有助于了解公司数据的基础条件。数据梳理,也叫做数据剖析或数据审计,可以明确地展现公司数据现状及其特点。数据梳理主要是指对数据的结构、内容和关系进行分析,在关键的数据诊断阶段可以提供公司数据的质量信息。这些信息在帮助确定公司能提供什么样的数据和这些数据的有效性和实用性等方面起到重要作用。使用合理的数据梳理方法,可以随时透视公司业务过程和改善公司的业务流程。1.1??一般数据问题大多数公司都存在数据问题[8]。主要表现在数据难于管理,对于数据对象、关系、流程等难于控制。其次是数据的不一致性,数据异常、丢失、重复等,以及存在不符合业务规则的数据、孤立的数据等。在实施任何管理项目之前,需要了解支持管理活动的基本信息:????(1)??在本管理活动中使用的数据质量是否可靠,????(2)??现有数据能否支持项目功能,????(3)??本活动中的数据是否符合预期的业务规则,(4)??公司推行的管理活动是否可以获得所需要的数据源。如果没有清楚地了解这些事情就开始实施诸如ERP等管理项目,将导致开发成本超支或者可能的项目失败。据工业估计,商业智能和客户关系管理的成功率在30%——50%之间。公司通常不了解数据质量问题对公司业务影响程度。公司内部的数据问题会导致销售额下降、支出浪费、不明智的决策、不规范的客户关系。最终导致经营失败。1.2???????数据结构分析通过数据结构分析[9]来了解数据模式和元数据库[10],帮助确定在表中或者在栏中的数据是否一致或者是否符合公司业务要求。1.2.1??????????元数据检验大多数的数据都有与之相关联的元数据[11],或者具有可描述的数据特征。它可能存在于相关数据库、数据模型或文本文件中。元数据中所包含的信息可以指示出数据的类型、字段长度,数据是否唯一,或者字段是否为空或为零等。元数据用于描述表格或者表格栏中的数据。数据梳理方法是对数据进行扫描并推断出相同的信息类型。通常,元数据和数据的性质完全不同。例如,在元数据中设计长度为255字符、行数1000万行的字段。如果实际数据中最长的数据元素为200个字符,则字段设计的长度明显大于要求的长度,那么意味着浪费了550MB的磁盘空间。表1?所示的是典型的产品字段元数据应该包含的信息的实例。?数据列分析字段:产品__?描述定义类型:VARCHAR定义长度:38 chars公制名称公制值数据类型?????????????VARCHAR主键候选?????????????no唯一计数?????????????8513唯一性???????????????72.78模式计数?????????????5790最小值???????????????#101 GEN…最大值???????????????ZOO ANIMA.最小长度?????????????5最大长度?????????????38零计数???????????????1空计数???????????????0真实类型?????????????string计数?????????????????11698数据长度?????????????38 chars?????????

文档评论(0)

2017ll + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档