- 1
- 0
- 约3.69千字
- 约 6页
- 2017-05-05 发布于上海
- 举报
大讲台谈Hive(后篇二)
大讲台谈Hive(后篇二)
大讲台谈hive(后篇二)
桶操作
Hive 中 table 可以拆分成 Partition table 和 桶(BUCKET),桶操作是通过 Partition 的 CLUSTERED BY 实现的,BUCKET 中的数据可以通过 SORT BY 排序。
BUCKET 主要作用如下。
1)数据 sampling;
2)提升某些查询操作效率,例如 Map-Side Join。
需要特别主要的是,CLUSTERED BY 和 SORT BY 不会影响数据的导入,这意味着,用户必须自己负责数据的导入,包括数据额分桶和排序。 #39;set hive.enforce.bucketing=true#39; 可以自动控制上一轮 Reduce 的数量从而适配 BUCKET 的个数,当然,用户也可以自主设置 mapred.reduce.tasks 去适配 BUCKET 个数,推荐使用:
1. hivegt; set hive.enforce.bucketing=true;
操作示例如下。
1) 创建临时表 student_tmp,并导入数据。
1. hivegt; desc student_tmp;
2. hivegt; select * from student_tmp;
您可能关注的文档
最近下载
- 第七章海洋中的混响资料.doc VIP
- 2025年长沙环境保护职业技术学院辅导员招聘考试笔试模拟试题及答案解析.docx VIP
- 《安规》题库及答案.pdf VIP
- GE巴纳OXYIQ氧量分析仪用户使用手册.PDF
- 三级减速器设计_毕业设计论文.doc VIP
- 生命周期评价方法(life cycle assessment,LCA).pdf
- 2025 八年级上册新文化运动与思想解放潮流课件.pptx
- 农药的使用(全套105页PPT课件).pptx VIP
- 2025版中华民族共同体概论课件第三讲文明初现与中华民族起源(史前时期)第四讲天下秩序与华夏共同体演进(夏商周时期).pptx VIP
- 人教版(2024)新教材七年级数学下册第9章平面直角坐标系中的面积问题【八大题型】(含答案).docx VIP
原创力文档

文档评论(0)