数据抽取研发文档.docx

下载文档 降价啦

1
0
约8.57千字
约 15页
2017-08-24 发布于浙江
举报
版权申诉
保障服务

数据抽取研发文档.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

数据抽取研发文档

目录2.3数据抽取层研发12.3.1分布式ETL研发12.3.1.1 ETL数据仓库概述12.3.1.2分布式数据仓库系统22.3.1.3 ETL22.3.1.4分布式ETL42.3.1.5分布式ETL的体系结构和特点42.3.2兼容大数据处理架构的ETL研发42.3.2.1 kettle52.3.2.2 Hadoop62.3.2.3将ETL数据输入hadoop62.3.2.4将hadoop数据输入ETL72.3.2.5直接将数据输入hadoop82.3.2.6基于mapreduce的ETL处理92.3数据抽取层研发2.3.1分布式ETL研发2.3.1.1 ETL数据仓库概述数据仓库之父比尔·恩门（Bill Inmon）在1991年出版的“Building the Data Warehouse”（《建立数据仓库》）一书中所提出的定义被广泛接受——数据仓库（Data Warehouse）是一个面向主题的（Subject Oriented）、集成的（Integrated）、相对稳定的（Non-Volatile）、反映历史变化（Time Variant）的数据集合，用于支持管理决策(Decision Making Support)。数据采集(ETL)，即数据抽取（Extract）、转换（Transform）、清洗（Cleaning）、装载（Loading）的过程，是构建数据仓库的重要环节。用户从数据源抽取出所需的数据，经过数据清洗，最终按照预先定义好的数据仓库模型，将数据加载到数据仓库中去。具体来讲，数据抽取：是数据源接口，包括原始数据接口和外部数据接口，源数据接口从业务系统中抽取数据，为数据仓库输入数据。数据转换：数据转化包含对来自多个生产系统的数据源的处理，保证数据按照要求装入数据仓库。数据清洗：一个确保数据集中的所有数值是一致的和被正确记录的处理过程。数据装载：数据装载部件负责将数据按照物理模型定义的表结构装入数据仓库。这些步骤包括清空数据域、填充空格、有效性检查等。2.3.1.2分布式数据仓库系统分布式数据仓库系统（DDWS,Distributed Data Warehouse System）是物理上分散的数据仓库系统，是为了联系分析处理的需求，使用计算机网络将多个逻辑单位联接起来，共同组成一个逻辑上统一的数据仓库系统。分布式数据仓库的体系结构，W.H.Inmon在《数据仓库》中一书中论述了分布式数据仓库，并提供了以后总典型的分布式数据仓库的体系结构，如图2-1所示：图2-1 分布式数据仓库体系结构分布式数据仓库室友局部数据仓库和全局数据仓库组成。2.3.1.3 ETL在数据集成领域，基于企业应用的需求，出现了一种轻量级的数据集成中间件-ETL工具，利用它能够灵活地完成绝大部分的数据集成工作。RTL负责将分布、异构数据源中的数据如关系数据库、文本数据库、HTML、XML数据等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库，成为决策支持如OLAP、数据挖掘、可视化报表的基础。1. ETL数据处理ETL数据处理流程是一种数据处理流程的计算模型，即将数据处理任务的工作如何前后组织在一起的逻辑和规则在计算机中以恰当模型进行表示并对其实施计算。如图2-2所示，ETL数据处理流程由三部分组成：⑴据源，代表数据的外部来源和最终去处，例如关系数据库和平面文件；⑵据处理活动，对数据进行的操作，由活动名称，输入schema、输出schema和参数列表等组成，它把流入的数据转换为流出的数据，例如排序、过滤分类等数据处理；⑶数据流，由一组数据组成，数据流用带有名字和约束条件的箭头线段表示，名字称为数据流名，表示流经的数据，约束条件表示数据满足的约束，箭头表示流向。图2-2ETL数据流组成元素随着数据量的剧增，数据流程处理的需求也更加广泛，如何提高数据流程处理框架的数据处理能力和执行效率是非常值得研究的问题。目前学术界关于数据集成的研究热点主要集中在两个方面：ETL数据流程建模以及ETL数据流程建模以及ETL的执行优化。近年来随着多核CPU的强大并发处理能力给我们研究ETL工具带来了新的思路，使我们开始关注如何通过多线程并发地执行数据流程来提高ETL框架的数据处理能力。2.ETL各个步骤介绍通常ETL分别为抽取、转换、清洗、装载四个步骤。抽取主要是针对各个业务系统及不同数据源的分散数据，充分理解数据定义后，规划需要的数据源及数据定义，制定可操作的数据源，制定增量抽取的定义。转换主要是针对数据仓库建立的模型，通过一系列的转换来实现将数据从业务模型到分析模型的转变，通过内建的库函数、自定义脚本或其他的扩展方式，实现各种复杂的转换，并且支持调试环境监控数据转换的状态。清洗主要是针对系统的各个环节可能出现的数据二义性、重复、不完整、违反业务规则等