一种基于主数据流分析数据比对方法.docVIP

一种基于主数据流分析数据比对方法.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于主数据流分析数据比对方法

一种基于主数据流分析数据比对方法   【摘要】数据比对工作是数据整合过程的核心工作之一,决定着数据整合的成败。文章介绍了一种通过定义数据比对过程中的主数据,结合主数据流而进行数据比对的方法,并通过实际案例做了详细说明;通过分析数据不一致的原因并给出完善建议,避免错误数据的再次发生。最后文章讨论了数据质量对数据比对结果的影响以及业务流程对保障数据质量的重要性。   【关键词】数据比对;数据整合;主数据;业务流程   1.介绍   随着信息化应用的推广,大型机构中信息系统的数量在逐渐增多。但由于各系统数据规范不完整、系统间缺少数据接口,而使数据整合工作成为IT部门的一项重要工作;关于数据整合的重要性、数据整合的工具有很多论著[1-5]。数据整合包含了数据的提取、转换和加载,其中涉及计算机技术和业务逻辑。数据整合是非常重要的,甚至会影响信息系统/数据仓库建设的成败。一个对象存储在多个系统中,使得在数据整合的过程中必须要进行数据的比对,而且,此时的数据比对工作也是数据整合的核心内容。   每个系统对同一对象的理解角度不同,因此给出的对象定义也不相同;同时考虑数据的完整性,数据的时间局限性等导致数据的比对工作并不顺利。数据比对一般由计算机程序自动处理,后期则需要人工参与。涉及到数据比对的数据整合存在于诸多信息系统建设过程中,如国家基础信息库系统的建设;人口库数据分别来源于公安局、劳动局、教育局、劳动和社会保障局等,法人库数据来源于工商局、税务局、经委等;地理信息资源库来源于规划局、房地局、水务局、建管局、交管局等。   本文先定义了一种以主数据定义和分析主数据流为主线的数据比对方法。结合实际项目案例给出具体比对过程。   2.数据比对过程和方法   本文介绍的数据比对方法,以原因分析为重点,强调不匹配数据的原因分析并结合业务逻辑,对历史数据和增量数据给出整改方法。   数据比对的过程可以分为以下7个步骤分别是:数据获取、主数据定义、主数据流分析、程序比对逻辑、人工比对逻辑、原因分析、处理建议。   2.1 ???据获取   从两个(或多个)源系统中获得待比对的原始数据。需要注意的是每个信息系统均为运行的系统,数据会产生变化。因此应该首先统一数据获取的时间。如获取截止到2008年10月1日24:00止的数据。并对该时间点之后的增量数据做标记,以备后续的数据比对。   2.2 主数据定义   按照新系统或数据比对的业务要求,定义比对的关键数据项(数据字段)。确定这些数据项的含义、来源(以哪个系统数据为准)、在各自系统中的名称、各自系统中对应的数据项(数据字段)。此步骤是数据比对工作的核心部分,需要明确关键数据项的来源和责任。如对于人口数据:姓名和身份证号码来源于公安局,教育程度来源于教育局,就业单位信息来源于劳动和社会保障局等。   在定义好主数据之后,需要视具体应用系统情况而定,对原始数据进行数据清洗。以便剔出非法数据,降低人工比对的工作量和提高数据比对的成功率。数据清洗工作一般由计算机程序进行。   2.3 主数据流分析   根据具体的业务逻辑和业务流程,确定所有主数据在相关信息系统中的生命周期。需要明确以下内容:   (1)主数据的责任部门或责任人:是谁在何时创建、修改、交换或删除主数据;   (2)主数据的相关系统:相对于主数据生命周期的每个阶段,分别在哪个信息系统中保存,系统间接口关系。   (3)主数据流与业务流程的关系:新增流程、修改流程、删除流程对主数据的影响。   本步骤主要是关注主数据的修改记录。   2.4 程序比对逻辑   数据比对的第一阶段,一般通过计算机程序处理进行。需要整理出程序比对的逻辑,尽可能分析各原始数据的业务逻辑,寻找尽可能多的数据对应关系。有些数据只能通过唯一的标识进行比对,如人口信息通过身份证号码进行比对或者通过联合身份证号码和姓名一起进行比对;有些数据可以有多种程序比对逻辑,如电路数据中第一种程序是电路编号相同,第二种程序是工程编号相同,第三种程序是电路两端地址均相同。   2.5 人工比对逻辑   由于信息系统建设的时间不同、业务流程与IT系统的结合程度不同、部分业务数据不完整等情况,程序比对往往达不到100%。因此在程序比对后产生的遗留数据必须由人工来完成。   在人工比对过程中,需要整理出人工比对的方法。如人口数据比对中,不同身份证号码相同配偶名称和身份证号码,则可以认定为同一个人。   2.6 原因分析   对于人工比对的数据,我们需要分析数据不匹配的原因。可能是由于无业务流程或纸制流程的问题,可能由于流程与IT系统衔接的问题,可能由于系统间数据交换导致的数据不完整的问题,可能是人工输入错误的问题等等。   在分析的过程中需要考虑哪

文档评论(0)

fangsheke66 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档