社保数据集成系统ETL研究和开发.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
社保数据集成系统ETL研究和开发

社保数据集成系统ETL研究和开发   摘要:该文主要通过研究社保系统数据集成中使用的ETL方法,并结合崂山区社会保险管理系统的现状,提出了采用数据仓库法实现崂山区社保系统的数据集成。重点介绍了社保系统数据集成中ETL的开发。经过验证能够建立统一的、完整的、高质量的社保系统数据仓库。   关键词:数据仓库;数据集成;ETL;社会保险   中图分类号:TP311文献标识码:A文章编号:1009-3044(2012)03-0506-02   数据仓库技术是将来自于异地的数据源的数据加工(ETL)后在数据仓库中存储、提取和维护,以支持高级决策[1]。   社会保险行业经过多年的信息化发展,凌乱、重复、歧义的数据接踵而至,数据集成需求日渐迫切。现有的青岛崂山区社会保险管理系统由于有不同的数据项命名规则、不同的代码标准、不完全相同的关键码,使得各处理系统,如关系密切的社保、就业和劳动合同备案间公共数据信息冗余度很高,难以集成和共享,给统计和决策分析工作造成很大的障碍。   根据崂山社保存在的问题,本文拟构建跨平台的ETL工具,以解决异构数据源数据集成问题,实现崂山区社保数据库、就业数据库和劳动合同备案数据库的数据集成,形成有效的数据仓库,供以后进行数据挖掘和OLAP分析做准备。    1 ETL研究与设计   1.1 ETL相关技术   ETL是英文Extract、Transform、Load的缩写,是指从各种异构应用系统中抽取数据,并对抽到的数据进行加工转换处理,最后加载到数据仓库DW(DataWarehouse)的过程。它是保证数据仓库数据正确性和有效性重要过程,也是决策支持项目实施成败的关键因素[2]。   1.2 ETL模型建立[3]   1.2.1系统简介   本模型主要完成社保数据仓库的建立,用到了web services技术和XML技术,此两项技术主要完成数据的抽取和清理转换,清理数据集中的不一致性、冗余和多余字段,最终建立崂山区社保系统数据仓库。系统框架图如下图所示。      图1 1.2.2核心的WEB服务介绍   底层的数据源各自有不同的数据结构,要有效地把不同数据结构的数据结合起来,就要为每个数据源设计相应的核心Web服务。核心的web服务主要完成的任务是提供访问后台异构数据库的接口和封装结果集等。例如,要获得异构数据源的数据:   [WebMethod[description=”获得数据集”]   Public DataSet GetData( string SQL)   {string conn; //数据库连接字符串   ……………………    2实现方法[4]   2.1同构冲突的解决   主要完成SQL server2005数据库和oracle10g中各自所存储的社保相关数据的初步清理和转换,解决数据的冗余、各表之间字段命名冲突,如同名异义、异名同义等,为最终数据仓库的建立提供初始数据源。2.1.1数据清理   1)冗余数据的清理:SELECT DISTINCT * INTO新的分析表名FROM有重复行数据的原始表名例如:select distinct * into就业登记信息仓库from就业登记信息表   2)无用字段的清理:ALTER TABLE表名DROP COLUMN无用列名1,无用列名2,…   例如:alter table个人基本信息表drop column BCC016(体重),BCC017(身高)   3)空值的清理:UPDATE表名SET列名=0 WHERE列名IS NULL   UPDATE表名SET列名=’’WHERE列名IS NULL   4)不规则数据的清理:在操作时数据录入人员在录入数据时,不小心在实际数据之前输入了一个或多个空格,这些不起眼的空格很有可能影响数据的集成的准确性。在构建数据仓库时应消除数据前无用的空格:   UPDATE表名SET列名=LTRIM(列名)。   2.1.2数据初步转换   1)数据类型的转换:   直接转换的数据类型:ALTER TABLE表名ALTER COLUMN列名新数据类型。   间接转换的数据类型:主要针对将非日期类型的数据转换为日期类型。   2)对象名的转换:将英文字母或拼音缩写来表示的表名字段名转换为易于理解的中文。EXEC sp_rename’原表名’,’新表名’   EXEC sp_rename’表名.原列名’,’新列名’,’COLUMN’   3)数据编码的转换:UPDATE表名SET编码列名=CASE编码列名WHEN编码值1 THEN中文含义字符串1 WHEN编码值2 THEN中文含义字符串2 WHEN编码值3 THEN中文含义字符串3…END  

文档评论(0)

3471161553 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档