- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
技术创新,变革未来
Hive技术平台详解
内容
Hive介绍
Hive运行架构
HiveQL示例
HiveQL原理
Hive数据库结构
Hive是什么
Facebook开源,最初用于解决海量日志统计问题
可以将结构化的数据文件映射为一张数据库表
设计目标是让SQL技能良好,但Java技能较弱的
分析师可以查询海量数据
提供近乎完整的SQL功能
早期唯一大规模运行在Hadoop上的SQL工具
使用HQL作为查询接口
使用HDFS作为存储底层
使用MapReduce作为执行层, SQL语句转换为
MapReduce任务运行
Hive优缺点
优点
学习成本低:通过类SQL语句快速实现很多MapReduce
任务,各种背景的人都能够上手
基于Hadoop的一个数据仓库工具,适合做ETL
适合数据仓库统计分析:海量结构化数据离线分析,不
必开发专门的MapReduce应用
缺点
HQL表达能力有限,有些复杂运算用HQL不易表达
Hive和RDBMS的区别
Hive RDBMS
查询语言 HQL SQL
数据存储 HDFS Local FS
数据格式判断 查询时判断 插入时判断
执行延迟 高 低
处理数据规模 大 小
执行 MR Executor
Hive在hadoop生态体系中的位置
Hive安装部署
Metastore通常会单独占一个节点,提供服务
Hive运行架构
Hive运行架构
Hive是C/S模式
Client端有JDBC/ODBC和Thrift Client ,可远程
访问Hive
Server端有:CLI、Thrift Server、HWI、Driver、
Metastore
其中CLI、Thrift Server、HWI是暴露给Client访
问的Hive服务
Driver、Metastore是Hive内部组件,Metastore
还可以供第三方SQL on Hadoop框架使用
Hive运行架构
CLI (Common Line Interface):命令行接口,默认服务
bin/hive或bin/hive --service cli
HWI (Hive Web Interface):Web接口,默认端口9999
bin/hive --service hwi
ThriftServer :通过Thrift提供服务,默认端口是10000
bin/hive --service hiveserver
bin/hive --service hiveserver2
对应新的CLI :beeline(Hive 0.11引入),作为Hive
JDBC Client访问HiveServer2,解决了CLI并发访问
问题
Hive运行架构
Metastore :负责元数据服务,RDBMS负
责元数据存储
bin/hive
原创力文档


文档评论(0)