大讲台谈Hive(后篇二).docVIP

  • 1
  • 0
  • 约3.69千字
  • 约 6页
  • 2017-05-05 发布于上海
  • 举报
大讲台谈Hive(后篇二)

大讲台谈Hive(后篇二) 大讲台谈hive(后篇二) 桶操作 Hive 中 table 可以拆分成 Partition table 和 桶(BUCKET),桶操作是通过 Partition 的 CLUSTERED BY 实现的,BUCKET 中的数据可以通过 SORT BY 排序。 BUCKET 主要作用如下。 1)数据 sampling; 2)提升某些查询操作效率,例如 Map-Side Join。 需要特别主要的是,CLUSTERED BY 和 SORT BY 不会影响数据的导入,这意味着,用户必须自己负责数据的导入,包括数据额分桶和排序。 #39;set hive.enforce.bucketing=true#39; 可以自动控制上一轮 Reduce 的数量从而适配 BUCKET 的个数,当然,用户也可以自主设置 mapred.reduce.tasks 去适配 BUCKET 个数,推荐使用: 1. hivegt; set hive.enforce.bucketing=true; 操作示例如下。 1) 创建临时表 student_tmp,并导入数据。 1. hivegt; desc student_tmp; 2. hivegt; select * from student_tmp;

文档评论(0)

1亿VIP精品文档

相关文档