- 1、本文档共20页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
文件编号:数据抽取解决方案起 草 部 门:数据分析软件事业部管 理 部 门:数据分析软件事业部撰 写 人:汤宇航审 核 人:批 准 人:发 布 日 期:修订页编号章节名称修订内容简述修订日期修订前版本号修订后版本号修订人批准人1全文2011-4-80.1汤宇航引言背景在我们目前的数据分析项目中,数据抽取环节出现的问题比较多,特别是性能的问题比较突出,有些项目甚至一个晚上都不能完成抽取工作,极大影响第二天的正常工作。而出现这些问题的原因有可能是由于采取了不合理的数据流转过程,采用了与实际环境不相匹配的技术,也有可能是对抽取过程中的性能问题缺乏认识。另外,我们缺少一个统一的数据抽取方案,没有超越具体的项目从总体上对抽取过程中涉及的各种子系统和它们之间的关系进行统一的整理。孤立的看每个具体的项目,都有其局限性,不利于发现问题,不利于为今后的项目提供参考和指导。编写目的通过本文档,总结以往项目的问题和经验,从总体上确定数据抽取解决方案,为今后项目提供指导。术语定义ETLETL是抽取、转换和加载的缩写,在这里表示数据从生产系统到数据仓库的中的整个操作步骤和流程。生产系统指产生数据的系统,数据在这些系统的各个业务环节中产生,是进行数据分析的数据源头,它为数据仓库提供原始的数据。包括CTAIS、防伪税控系统等。数据仓库本文中指的是公司的税务数据仓库,数据来源于各个生产系统,通过ETL过程抽取过来,在抽取过程中进行一系列转换、集成、清洗和聚集等操作。数据仓库是所有项目的数据支撑,项目中所需的分析型数据全部来自于数据仓库,而不是直接从生产系统中获取。集结区集结区是对来自生产系统的数据进行加工的地方,是连接生产系统和数据仓库的桥梁。集结区只能由具有ETL权限的用户访问,一般不能由数据仓库用户访问,也即其中的数据不能作为数据源展现给数据仓库的用户。ETL用户在集结区中对来自生产系统中的数据进行各种加工(包括清洗、转换和集成等操作),并把加工后的数据加载到数据仓库中。CTASCTAS是Create Table As Select的缩写。代理键代理键是指维度表中顺序和无业务含义的整数型主键。自然键自然键是指生产系统中的表的主键,通常具有一定的业务含义,由一个或多个字段组成。条件与限制本文所描述的内容中,数据库服务器都仅指Oracle系统的数据库服务器。编写目的中也描述了,本文是对以往项目的总结。所以,在本文中没有考虑存在快照库的情况。其实这也不是什么问题,如果存在快照库,就相当于在生产系统和集结区之间多了一个子系统。只需把下文中关于生产系统的描述都理解为快照库即可。至于生产系统和快照库之间,利用数据复制工具就可以实现在两者之间的数据同步。参考资料《Oracle数据增量抽取解决方案》《ETL性能分析和优化V1.0》概述在目前,最重要的事情就是通过对以往各个项目的数据抽取工作的总结,整理出一个最符合当前实际情况的数据抽取应用架构。梳理出整个数据抽取过程应该包括哪些子系统,理清数据如何在这些子系统之间流转。同时,结合各个子系统的特点和数据处理的需求,为每个数据流转过程选用合适的技术方案,确定数据抽取的技术架构。在架构之外,另一个决定数据抽取是否成功的因素是ETL性能。影响ETL性能的因素有很多,最主要的是各个服务器的软硬件资源规划,以及是否对它们进行了合理的配置。另外,是否进行合理和必要的日常管理也会极大的影响ETL的性能。以下各章节将分别对这些内容进行阐述,对于一些细节性的技术内容,限于篇幅,不再在本文中赘述,关于这些内容详见《Oracle数据增量抽取解决方案》和《ETL性能分析和优化V1.0》等文档。数据抽取架构数据抽取应用架构对于数据抽取工作,必须首先理清这项工作涉及哪些子系统,每个子系统都承担着什么样的角色。然后,在此基础上,梳理它们之间有什么样的数据流转过程。首先,整个数据抽取工作涉及生产系统数据层、集结区和数据仓库三个子系统。生产系统数据层生产系统数据层作为数据源,为数据仓库提供最原始的,也是最粗糙的数据。集结区集结区从生产系统数据层中获取原始的、粗糙的数据,并对这些数据进行清洗、转换和集成等加工,并把加工后集成的、干净的数据加载到数据仓库中。集结区对于数据仓库最终用户是不可见的,所有基于数据仓库的数据分析应用,包括会计核算、预警监控、税收分析等都不能直接访问集结区来获得数据。集结区只是给数据抽取实施人员用的,用作数据从生产系统数据层到数据仓库的临时存储地,以及对这些临时存储的数据进行加工的场所,它完全是为了更好的实现数据抽取而存在的。在生产系统数据层和数据仓库之间加入集结区,而不是把数据抽取动作直接放在数据仓库中进行有如下好处:可恢复在大多数情况下,数据从生产系统数据层中抽取出来后,会进行一系列重要的转换,假设对于某张表,其转
您可能关注的文档
- 图书配送中心设立.docx
- 西安交通大学研究生一年级英语写作范文试题.docx
- 瘦孕精华篇(by邱锦伶).docx
- 尼日利亚进出口贸易的环境和政策.docx
- 马克思主义基本原理概论学习报告.docx
- 公司员工日常考核制度及纪律标准.docx
- 智障儿童的功能康复训练.docx
- 自考保险学名词解释简答题已排版.docx
- 关于as详细用法.docx
- 天津万通中心.docx
- 2026届山东省济宁市高一上数学期末调研模拟试题含解析.doc
- 2026届黑龙江省绥芬河市高级中学英语高三第一学期期末统考试题含解析.doc
- 黑龙江省2026届英语高三上期末检测模拟试题含解析.doc
- 2026届广东省东莞市翰林实验学校英语高三上期末达标检测试题含解析.doc
- 2026届楚雄市重点中学高三英语第一学期期末学业质量监测模拟试题含解析.doc
- 黑龙江省双鸭山市第一中学2026届数学高二上期末学业质量监测模拟试题含解析.doc
- 2026届山东省肥城市泰西中学语文高三第一学期期末经典模拟试题含解析.doc
- 2026届吉安市重点中学高一上数学期末联考试题含解析.doc
- 2026届陕西省西安电子科技大附中语文高三第一学期期末调研试题含解析.doc
- 2026届安徽省铜陵一中、池州一中、浮山中学等高三英语第一学期期末监测模拟试题含解析.doc
文档评论(0)