关系型数据库导入导出绝招出炉.pdf

下载文档 降价啦

0
0
约1.14千字
约 4页
2017-08-16 发布于浙江
举报
版权申诉
保障服务

关系型数据库导入导出绝招出炉.pdf

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

关系型数据库导入导出绝招出炉

关系型数据库导入导出绝招出炉 Sqoop 作为数据传输的工具，对于 Hadoop 与传统数据库之间数据的传输起着桥梁作用，那么到底如何导入导出数据呢？第一：使用MapReduce 作业来执行导入：（1 ）Sqoop 首先检查将要导入的表 1、确定主键（如果有的话），调用mapreduce，根据主键分割map 2、没有主键，运行边界查询确定导入的记录数（找到一个 min 和一个max，确定边界进行划分） 3 、通过任务数来划分边界查询的结果,使得他们有相同的负载（2 ）Sqoop 为每个将导入的表生成Java 源文件 1、在导入过程中编译和使用文件 2、导入后依然保留，可以被安全删除第二：使用sqoop 导入整个数据库：（1）import-all-tables 工具导入整个数据库 1、存储为逗号间隔的文件 2、默认导入到HDFS 的home 目录 3 、数据将放在每个表的子目录中（2 ）使用--warehouse-dir 选项指定不同的基础目录第三：使用Sqoop 导入单个表：（1 ）import 工具导入单个表 1、示例：导入accounts 表以逗号分隔的方式存储数据到HDFS 2、指定tab 分隔字段第四：增量导入（1）如果上次记录导入后发生了变更怎么办？ 1、可以重新导入所有记录，但是效率低（2）Sqoop 的lastmodified 增量模式导入新的和修改的记录 1、基于指定的timestamp 列 2、确保当记录更新或者被添加时timestamp 也更新（3 ）append 增量模式只导入新纪录 1、基于指定列的最后一条记录第五：使用Sqoop 从Hadoop 导出数据到RDBMS （1 ）Sqoop 的import 工具把数据从RDBMS 拉入到HDFS （2 ）有时候也需要把HDFS 的数据推回到RDBMS，当需要对大数据集进行批处理，并导出结果到RDBMS 供其它系统访问（3 ）Sqoop 使用export 工具，RDBMS 表在导出前必须已存在掌握了以上方式，对于关系型数据库的导入和导出基本有一个明确的认知和了解，其实我们在日常的学习和实践过程中要多去看看别人的分享，毕竟做技术每个人的经历与经验不一样，有时候说不准会有意向不到的收获。我自己平时喜欢关注“大数据 cn ”、“大数据时代学习中心”这些微信服务号，对于我个人而言，起到了很大的促进作用，也期待每一个学习大数据的人都能够有所收获！