- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
. . . .
. . . .
参考
参考
并行ETL工具可扩展技术的研究和开发
摘 要
ETL工具负责从分布的、异构数据源中抽取数据并对其进行清洗和转换,最后装载到数据集市或数据仓库中,是数据挖掘和联机分析处理的基础。ETL工具通常提供了一些常用的基本操作,但是由于ETL应用场景多样、操作逻辑复杂,这些通用操作往往并不能满足用户的需求,这就要求ETL工具必须具有一定的可扩展性,以满足各种特殊需求。同时,在大数据时代,ETL工具通过整合云计算技术以处理海量数据。传统ETL工具通过集成并行ETL工具Hive和Pig的方式来弥补大数据处理方面的不足,但是存在商用工具价格高昂而开源工具集成度不够的问题,因此,较好地集成Hive和Pig以实现功能的扩展非常重要。另一方面,ETL流程作为一个逻辑计划,在解析成物理计划的过程中需要根据优化规则进行一系列的优化,而优化规则并不是一成不变的,在ETL工具的使用过程中,新的优化规则会被总结出来,因此,还需要使优化规则具有较高的可扩展性。
本文开发基于Hadoop的、B/S模式的并行ETL工具,并研究如何实现对并行ETL工具进行扩展,完成了如下几项主要工作:
通过分析MapReduce并行计算框架的实现细节,设计实现了两种方案来向现有工具中嵌入定制的MapReduce代码以完成功能扩展从而可以处理复杂的需求。
通过分析总结Hive和Pig脚本语言的语法特点,结合实际应用需求,选取了一整套基本操作,并针对性地将基本操作设计为功能组件,然后通过分析基本操作间的依赖关系设计和实现了流程解析模块,解析出来的脚本拥有和手工编写的脚本一样的逻辑。这种集成方式扩展了并行ETL的功能,同时保证了系统能够提供一个统一的图形用户界面。
通过分析开源ETL工具Hive和Pig的优化规则实现机制,设计实现了自己的优化规则实现机制。实现上是通过将规则需要匹配的样式和对应的操作关联起来,将规则的匹配机制和计划的游走机制进行隔离和抽象。基于这种设计方式,可以很方便地扩展优化规则。
关键字:ETL 可扩展 MapReduce Hive优化规则
参考
RESEARCH AND IMPLEMENTATION OF
PARALLEL ETL TOOLS’
EXTENSIBLE TECHNOLOGY
ABSTRACT
ETL tools, which are the foundation of data mining and on-line analytical processing, are used to extract data from distributed heterogeneous data source and load the result into data mart or warehouse after cleaning and transformation. ETL tools usually provide some basic operations, such as correlation, summary, and so on, but due to the diversity of ETL application scenario, the complexity of operation logic, these common operations often cannot satisfy the needs of users, which requires the ETL tools must have certain extensibility, to meet the special needs of various. At the same time, in the era of big data, ETL tools handle huge amounts of data by integrating cloud computing technology. Traditional ETL tools make up for the large data processing by integrating parallel ETL tools such as Hive and Pig, but the existence of the high price of commercial tools and the problem that the open source tools’ in
您可能关注的文档
最近下载
- 米哈游文案策划专员岗面试题库参考答案和答题要点.docx VIP
- 20S517 排水管道出水口.docx VIP
- 医院民主评议党员制度.doc VIP
- 2025四川甘孜州民生人力资源管理有限公司招聘办案辅助人员初步筛选及笔试历年参考题库附带答案详解.docx
- 最新铁路营业线施工安全培训考试试题及答案.docx VIP
- 中国浙江省地图PPT模板.pptx VIP
- 智能体组织:AI时代的下一代组织范式+The+Agentic+Organization+Contours+Of+The+Next+Paradigm+For+The+AI+Era.docx
- (精品)《阿甘正传》剧本中英文台词对照完整版.pdf VIP
- (精益改善)工装模具定期保养检查表.pdf VIP
- 常识4600问(美化版).docx VIP
原创力文档


文档评论(0)