关系型数据库导入导出绝招出炉.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
关系型数据库导入导出绝招出炉

关系型数据库导入导出绝招出炉 Sqoop 作为数据传输的工具,对于 Hadoop 与传统数据库之间数 据的传输起着桥梁作用,那么到底如何导入导出数据呢? 第一:使用MapReduce 作业来执行导入: (1 )Sqoop 首先检查将要导入的表 1、确定主键(如果有的话),调用mapreduce,根据主键分割map 2、没有主键,运行边界查询确定导入的记录数 (找到一个 min 和一 个max,确定边界进行划分) 3 、通过任务数来划分边界查询的结果,使得他们有相同的负载 (2 )Sqoop 为每个将导入的表生成Java 源文件 1、在导入过程中编译和使用文件 2、导入后依然保留,可以被安全删除 第二:使用sqoop 导入整个数据库: (1)import-all-tables 工具导入整个数据库 1、存储为逗号间隔的文件 2、默认导入到HDFS 的home 目录 3 、数据将放在每个表的子目录中 (2 )使用--warehouse-dir 选项指定不同的基础目录 第三:使用Sqoop 导入单个表: (1 )import 工具导入单个表 1、示例:导入accounts 表 以逗号分隔的方式存储数据到HDFS 2、指定tab 分隔字段 第四:增量导入 (1)如果上次记录导入后发生了变更怎么办? 1、可以重新导入所有记录,但是效率低 (2)Sqoop 的lastmodified 增量模式导入新的和修改的记录 1、基于指定的timestamp 列 2、确保当记录更新或者被添加时timestamp 也更新 (3 )append 增量模式只导入新纪录 1、基于指定列的最后一条记录 第五:使用Sqoop 从Hadoop 导出数据到RDBMS (1 )Sqoop 的import 工具把数据从RDBMS 拉入到HDFS (2 )有时候也需要把HDFS 的数据推回到RDBMS,当需要对大数据 集进行批处理,并导出结果到RDBMS 供其它系统访问 (3 )Sqoop 使用export 工具,RDBMS 表在导出前必须已存在 掌握了以上方式,对于关系型数据库的导入和导出基本有一个明 确的认知和了解,其实我们在日常的学习和实践过程中要多去看看别 人的分享,毕竟做技术每个人的经历与经验不一样,有时候说不准会 有意向不到的收获。我自己平时喜欢关注“大数据 cn ”、“大数据时 代学习中心”这些微信服务号,对于我个人而言,起到了很大的促进 作用,也期待每一个学习大数据的人都能够有所收获!

文档评论(0)

hhuiws1482 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:5024214302000003

1亿VIP精品文档

相关文档