数据迁移之pig篇—如何处理hbase数据含换行符问题.docxVIP

  • 23
  • 0
  • 约1.34千字
  • 约 5页
  • 2021-04-01 发布于天津
  • 举报

数据迁移之pig篇—如何处理hbase数据含换行符问题.docx

数据迁移之PIG篇—如何处理HBASE数据含换行符问题 目录 TOC \o 1-3 \h \z \u 一、背景 2 二、PIG代码修改 2 三、示例 4 一、背景 从HBase向关系库迁移数据的时候,方便的工具不多,PIG是可选工具之一。当HBase表字段数据中含有换行符的时候,所有工具可能都会失效,PIG也不例外。通过本文给大家介绍如何通过PIG处理这个问题。 先看下,通过PIG导出HBase数据脚本是怎样的。 导出数据时,可以指定列分割符(PigStorage第一个参数),但是却没有可以指定换行符的地方,如果导出时,我们可以自定义换行符,那么前面我们提到的问题就可以迎刃而解了。 二、PIG代码修改 翻看下PIG的代码,发现PIG的输出主要由PigTextOutputFormat内部类PigLineRecordWriter处理,其中对行结束符的处理代码如下: 通过源码,我们可以看到在PIG的输出中,行结束符是程序写死的‘\n’,看来我们就不得不改造下PIG代码了。 我的修改方式是增加PigStorage带行结束符的构造函数,然后把这个行结束符带到输出类中,当然也可以采用其它方式处理,这里就不一一介绍了。 详细修改就不一一列举,只提几处关键修改点。 增加PigTextOutputFormat带行结束符的构造函数。 把传入PigTextOutputFormat的行

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档