- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
关系型数据库导入导出绝招出炉
关系型数据库导入导出绝招出炉
Sqoop 作为数据传输的工具,对于 Hadoop 与传统数据库之间数
据的传输起着桥梁作用,那么到底如何导入导出数据呢?
第一:使用MapReduce 作业来执行导入:
(1 )Sqoop 首先检查将要导入的表
1、确定主键(如果有的话),调用mapreduce,根据主键分割map
2、没有主键,运行边界查询确定导入的记录数 (找到一个 min 和一
个max,确定边界进行划分)
3 、通过任务数来划分边界查询的结果,使得他们有相同的负载
(2 )Sqoop 为每个将导入的表生成Java 源文件
1、在导入过程中编译和使用文件
2、导入后依然保留,可以被安全删除
第二:使用sqoop 导入整个数据库:
(1)import-all-tables 工具导入整个数据库
1、存储为逗号间隔的文件
2、默认导入到HDFS 的home 目录
3 、数据将放在每个表的子目录中
(2 )使用--warehouse-dir 选项指定不同的基础目录
第三:使用Sqoop 导入单个表:
(1 )import 工具导入单个表
1、示例:导入accounts 表
以逗号分隔的方式存储数据到HDFS
2、指定tab 分隔字段
第四:增量导入
(1)如果上次记录导入后发生了变更怎么办?
1、可以重新导入所有记录,但是效率低
(2)Sqoop 的lastmodified 增量模式导入新的和修改的记录
1、基于指定的timestamp 列
2、确保当记录更新或者被添加时timestamp 也更新
(3 )append 增量模式只导入新纪录
1、基于指定列的最后一条记录
第五:使用Sqoop 从Hadoop 导出数据到RDBMS
(1 )Sqoop 的import 工具把数据从RDBMS 拉入到HDFS
(2 )有时候也需要把HDFS 的数据推回到RDBMS,当需要对大数据
集进行批处理,并导出结果到RDBMS 供其它系统访问
(3 )Sqoop 使用export 工具,RDBMS 表在导出前必须已存在
掌握了以上方式,对于关系型数据库的导入和导出基本有一个明
确的认知和了解,其实我们在日常的学习和实践过程中要多去看看别
人的分享,毕竟做技术每个人的经历与经验不一样,有时候说不准会
有意向不到的收获。我自己平时喜欢关注“大数据 cn ”、“大数据时
代学习中心”这些微信服务号,对于我个人而言,起到了很大的促进
作用,也期待每一个学习大数据的人都能够有所收获!
您可能关注的文档
最近下载
- 《信息技术应用创新软件适配改造成本评估规范》.pdf
- 中国行业标准 YY/T 1939-2024医疗器械细菌内毒素试验方法 重组C因子法.pdf
- 各类游资炒股心法及感悟,套利模式.pdf
- 【客户管理】龙湖客户细分及工作模式分享精华篇-102p.pptx
- 学校智慧平台管理制度范文.docx VIP
- ASME中国制造-ISO12944-5-2018 中文译稿 第5部分 防护涂料体系.pdf
- 《诫子书》公开课课件(共24张ppt)部编版语文七年级上册.ppt
- 三年级数学下册期中试卷及答案【可打印】.doc
- 关于《佛山市市级财政资金投资建设项目工程概算预算结算.doc
- 二年级上册语文选择题强化练习(一).docx
文档评论(0)