银行业务数据ETL的需求分析.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
银行业务数据ETL的需求分析   摘要:本文探讨了银行业务数据ETL的需求,对源数据、处理步骤、采用工具等进行了分析。   关键词:ETL;数据;系统   中图分类号:TP311.12 文献标识码:A文章编号:1007-9599 (2011) 05-0000-01   Banking Data ETL Needs analysis   Du Sufang   (Puyang Vocational and Technical College,Puyang457000,China)   Abstract:This article discusses the needs of banking data ETL,the source data,processing steps,the use of tools analyzed.   Keywords:ETL;Data;System   数据ETL要求面向银行的业务需求,能够以多种方式从源数据系统抽取数据,按照业务规则进行数据的转换处理,最终加载到数据仓库核心数据库中。数据ETL同时也要考虑将数据从数据仓库内抽出,提供给各个应用系统或其他外部系统。   一、源数据范围   数据仓库数据源的选择范围包括:   (一) 核心及前置系统   核心业务系统为数据仓库的主要数据来源,在银行IT系统的架构中,核心业务系统是一个最重要的部分。核心业务系统中包含了大部分的业务数据,其数据平台是由运行于HP-UX的Informix IDS 9.3组成。到目前为止库中总数据量达到600-800G左右,平均日增量为1GB,其中交易数据在整个核心系统的数据量中占到80%以上。   (二)外围外挂系统   此系统包含有:对公风险;个贷;资产保全;保理;单证中心;网银;呼叫中心;绩效考核;中间业务系统。外围外挂系统根据数据仓库的需要,其业务数据将汇集到浦发银行的数据汇集平台。根据外围外挂系统所运行的数据库平台的不同,数据汇集平台又将分为SQL Server2000平台和Sybase平台两种。   其中SQL Server2000的数据汇集平台运行于Windows2000Server,到目前为止库中总数据量达到300G左右,平均日增量为1GB,其中绝大部分数据为传票历史数据。Sybase的数据汇集平台有待于逐步建立。   但SQL Server2000的数据汇集平台中除了传票数据保存历史数据以外,其他数据一概不保存历史数据,只有当日数据。因此,对于数据仓库来说,如需导入历史数据,则必须从其他所有的业务系统及其备份磁带中获取相关历史数据。   (三)SAP系统   SAP系统运行于SQL Server2000数据库平台,已经建成投产的主要包括财务、人事等模块。   二、源数据状态   对于上述各个数据源,原则上要求纳入数据仓库的数据时间跨度为各个业务系统当前生产系统版本的、并且最早从2003年初开始到ETL上线时间为止的业务历史数据。   对于核心业务系统,要求从2003年上线开始的所有历史数据都导入数据仓库中。目前核心业务系统在线保存约3-6个月的历史数据,其余部分历史数据保存在备份磁带上。因此,需要考虑从备份磁带上获取历史数据。   对于其他外围外挂子系统,基本上也是在线保存3-6个月的历史数据,其余部分历史数据保存在备份磁带上。因此,同样需要考虑从备份磁带上获取历史数据。   所有的传票历史数据可以从SQL Server2000的数据汇集平台中获取,除此以外,所有外围外挂子系统的每日业务数据,也可以从SQL Server2000或Sybase的数据汇集平台中获取。有鉴于此,数据汇集平台也有必要根据实际的数据增长进行扩充增强。   三、ETL处理步骤   在数据源已经确定的情况下,数据ETL处理过程就是把相关数据从源系统中抽取、转换并且加载到数据仓库中,也包括将数据从数据仓库以各种形式抽取、转换和加载到其他系统中。数据加载主要包括以下三个部分:   第一部分是把源系统中的数据加载到数据仓库的关系型数据表中,这是必不可少的一步;第二部分是从数据仓库的关系型数据表汇总到外部的OLAP 数据库中,这一步不是对所有的主题都需要的,只有进行OLAP 分析时才需要加载;第三部分是根据特定应用需求,从数据仓库系统以文件等(DBF、TXT 等)各种形式抽取、转换、加载相关数据到其他系统中。包括信贷风险管理系统、SAP系统等。   在此过程中应采用流程管理工具来管理整个ETL流程的进行,并通过各种数据检查手段对数据质量进行控制。   四、ETL时间窗口   数据ETL处理的时间窗口要求为从当日核心业务系统完成日终处理开始(约每日凌晨2点左右),到当日8点半左右。所有加载任

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档