- 11
- 0
- 约8.84千字
- 约 55页
- 2016-12-27 发布于湖北
- 举报
Hive开发使用-Hive的数据模型 桶 Buckets是将表的列通过Hash算法进一步分解成不同的文件存储。它对指定列计算hash,根据hash值切分数据,目的是为了并行,每一个Bucket对应一个文件。分区是粗粒度的划分,桶是细粒度的划分,这样做为了可以让查询发生在小范围的数据上以提高效率。适合进行表连接查询、适合用于采样分析。 例如将user列分散至32个bucket,首先对user列的值计算hash,则 对应hash值为0的HDFS目录为:/wh/pvs/dsctry=US/part-00000; 对应hash值为20的HDFS目录为: /wh/pvs/dsctry=US/part-00020。 如果想应用很多的Map任务这样是不错的选择。 Hive开发使用-Hive的数据模型 Hive的视图 视图与传统数据库的视图类似。视图是只读的,它基于的基本表,如果改变,数据增加不会影响视图的呈现;如果删除,会出现问题。如果不指定视图的列,会根据select语句后的生成。 视图的简单示例: 创建表:create view test_view as select * from test; 查看数据:select * from test_view;
原创力文档

文档评论(0)