Sqoop架构省赛获奖.pptx

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
朱佳 目录0102Sqoop简介Sqoop架构 Sqoop简介1 Sqoop简介Sqoop是“SQL to Hadoop”的缩写,其是常用于将批量数据移入和移出关系型数据库的强大工具。通常,你会发现,当将企业分析数据库和数据仓库结合使用时,大数据的价值得到彰显。Sqoop是将大数据与传统企业数据存储相结合的重要工具。在许多情况下,我们希望将关系型数据库管理系统(RDBMS)数据直接导入HDFS,或将Hadoop处理的输出直接发送到外部数据库或数据仓库。Sqoop负责在hadoop和数据库之间移动数据。 Sqoop简介Sqoop提供了一种简单的方法将驻留在数据库中的外部数据导入HDFS。可以使用Pig(用于查询和操作数据的高级数据管道系统)和Hive(帮助编写类似SQL的查询,其被转换为MapReduce)作业处理数据,然后将这些作业的输出导出到相同或不同的数据库。 Sqoop简介Sqoop可以向或从关系型数据库、数据仓库和NoSQL系统导入或导出数据。Sqoop提供数据和增量更新的双向复制。Sqoop支持多种常用的数据格式,如Avro和SequenceFiles,并且可与Hive和Oozie( Hadoop的流行作业调度程序)等工具集成在一起。 Sqoop架构2 Sqoop架构Sqoop利用Hadoop的MapReduce框架来完成所有的繁重工作。这意味着,当使用Sqoop移动数据时,可以充分利用MapReduce框架的所有优点,例如MapReduce的并行处理能力,以及其出色的容错能力。 Sqoop架构Sqoop 架构是非常简单的,它主要由三个部分组成:Sqoop client、HDFS/HBase/Hive、Database。需要指出的是,虽然Sqoop可以直接从RDBMS导入数据到HDFS、Hive和HBase,但不能直接从Hive和HBase导出数据到RDBMS。(这就是下图中Hive和Hbase的箭头不是双向的,而到HDFS的箭头是双向的原因)所有导出都是从HDFS完成的。将Hive表从Hadoop集群导出到RDBMS时,可以通过指向存储Hive表的HDFS目录(默认情况下为/user/hive/ warehouse)来执行此操作。 Sqoop架构RDBMSYARN Map TasksSqoop ClientHDFSHiveHbase

文档评论(0)

中小学K12教育 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档