Hive入门基础知识.ppt

  1. 1、本文档共55页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hive入门基础知识概要1

* * Hive开发使用-Hive的数据模型 桶 Buckets是将表的列通过Hash算法进一步分解成不同的文件存储。它对指定列计算hash,根据hash值切分数据,目的是为了并行,每一个Bucket对应一个文件。分区是粗粒度的划分,桶是细粒度的划分,这样做为了可以让查询发生在小范围的数据上以提高效率。适合进行表连接查询、适合用于采样分析。 例如将user列分散至32个bucket,首先对user列的值计算hash,则 对应hash值为0的HDFS目录为:/wh/pvs/dsctry=US/part-00000; 对应hash值为20的HDFS目录为: /wh/pvs/dsctry=US/part-00020。 如果想应用很多的Map任务这样是不错的选择。 Hive开发使用-Hive的数据模型 Hive的视图 视图与传统数据库的视图类似。视图是只读的,它基于的基本表,如果改变,数据增加不会影响视图的呈现;如果删除,会出现问题。如果不指定视图的列,会根据select语句后的生成。 视图的简单示例: 创建表:create view test_view as select * from test; 查看数据:select * from test_view; Hive开发使用-Hive的数据存储模型 数据库 (database) 表 (table) 表 (table) 常规数据 (data) (Buckets) 桶 (Buckets) 桶 分区 (Partition) 分区 (Partition) (Buckets) 桶 (Buckets) 桶 Hive开发使用-Hive创建数据表命令 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMMENT table_comment] [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] [CLUSTERED BY (col_name, col_name, ...) [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS] [ROW FORMAT row_format] [STORED AS file_format] [LOCATION hdfs_path] Hive开发使用-Hive加载数据命令 Load 操作只是单纯的复制/移动操作,将数据文件移动到 Hive 表对应的位置。如果表中存在分区,则必须指定分区名。 加载本地数据,指定LOCAL关键字,即本地,可以同时给定分区信息 。 load 命令会去查找本地文件系统中的 filepath。如果发现是相对路径,则路径会被解释为相对于当前用户的当前路径。用户也可以为本地文件指定一个完整的 URI,比如:file:///user/hive/project/data1. 例如:加载本地数据,同时给定分区信息: hive LOAD DATA LOCAL INPATH file:///examples/files/kv2.txt OVERWRITE INTO TABLE invites PARTITION (ds=2008-08-15); 加载DFS数据 ,同时给定分区信息: 如果 filepath 可以是相对路径 URI路径,对于相对路径,Hive 会使用在 hadoop 配置文件中定义的 fs.defaultFS 指定的Namenode 的 URI来自动拼接完整路径。 例如 :加载数据到hdfs中,同时给定分区信息 hive LOAD DATA INPATH /user/myname/kv2.txt OVERWRITE INTO TABLE invites PARTITION (ds=2008-08-15); OVERWRITE 指定 OVERWRITE ,目标表(或者分区)中的内容(如果有)会被删除,然后再将 filepath 指向的文件/目录中的内容添加到表/分区中。如果目标表(分区)已经有一个文件,并且文件名和 filepath 中的文件名冲突,那么现有的文件会被新文件所替代。 LOAD DATA [LOCAL] INPATH filepath [

文档评论(0)

yaocen + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档