- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Java私塾Hive的原理深入浅出学Hive
作者:Java私塾 创建时间: CREATEDATE \@ yyyy-M-d HH:mm:ss 2013-12-6 14:52:00 内容来自:Java私塾
Java私塾:Hive的原理—— 深入浅出学Hive??
目录:
初始Hive
Hive安装与配置
Hive 内建操作符与函数开发
Hive JDBC
hive参数
Hive 高级编程
Hive QL
Hive Shell 基本操作
hive 优化
Hive体系结构
Hive的原理
?
配套视频课程
?
第一部分:Hive原理
为什么要学习Hive的原理
?一条Hive HQL将转换为多少道MR作业
?怎么样加快Hive的执行速度
?编写Hive HQL的时候我们可以做什么
?Hive 怎么将HQL转换为MR作业
?Hive会采用什么样的优化方式
Hive架构执行流程
?
Hive执行流程
?编译器将一个Hive QL转换操作符
?操作符是Hive的最小的处理单元
?每个操作符代表HDFS的一个操作或者一道MapReduce作业
Operator
?Operator都是hive定义的一个处理过程
?Operator都定义有:
?protected?List?Operator???extends?Serializable??childOperators;?
?protected?List?Operator???extends?Serializable??parentOperators;?
?protected?boolean?done;?// 初始化值为false
?所有的操作构成了?Operator图,hive正是基于这些图关系来处理诸如limit, group by, join等操作
?
Hive执行流程
操作符描述TableScanOperator扫描hive表数据ReduceSinkOperator创建将发送到Reducer端的Key,Value对JoinOperatorJoin两份数据SelectOperator选择输出列FileSinkOperator建立结果数据,输出至文件FilterOperator过滤输入数据GroupByOperatorGroupBy语句MapJoinOperator/*+mapjoin(t) */LimitOperatorLimit语句UnionOperatorUnion语句?Hive通过ExecMapper和ExecReducer执行MapReduce任务
?在执行MapReduce时有两种模式
?本地模式
?分布式模式
ANTLR词法语法分析工具
?ANTLR—Another Tool for Language Recognition
?ANTLR 是开源的
?为包括Java,C++,C#在内的语言提供了一个通过语法描述来自动构造自定义语言的识别器(recognizer),编译器(parser)和解释器(translator)的框架
?Hibernate就是使用了该分析工具
?
Hive编译器
?
?
?
?
编译流程
?
第二部分:一条HQL引发的思考
案例HQL
?select key from test_limit?limit?1
?Stage-1
?TableScan OperatorSelect Operator- Limit-File Output Operator
?Stage-0
?Fetch Operator
?读取文件
Mapper与InputFormat
?该hive MR作业中指定的mapper是:
?mapred.mapper.class?= org.apache.hadoop.hive.ql.exec.ExecMapper
?input format是:
?hive.input.format??=?org.apache.hadoop.hive.ql.io.CombineHiveInputFormat?
?该hive MR作业中指定的mapper是:
?mapred.mapper.class?= org.apache.hadoop.hive.ql.exec.ExecMapper
?input format是:
?hive.input.format??=?org.apache.hadoop.hive.ql.io.CombineHiveInputFormat?
?
?
您可能关注的文档
- ISPE06终处理选择注射用水.doc
- ISO90012015质量管理体系要求学习word版.doc
- ISSR(inter-sequencerepeat)分子标记的实验原理及操作流程.doc
- ISO90012008版质量手册.doc
- It’sseveno’clock2014年小学教师信息技术应用能力提升全员远程研修.doc
- ISO90012008体系标准.doc
- ISO18000-6B标准中防碰撞算法的改进.doc
- IT公司员工素质能力表.doc
- ITS在区分疑似黄鹌菜上的应用.doc
- IT企业如何进行研发项目管理.doc
- 2024高考物理一轮复习规范演练7共点力的平衡含解析新人教版.doc
- 高中语文第5课苏轼词两首学案3新人教版必修4.doc
- 2024_2025学年高中英语课时分层作业9Unit3LifeinthefutureSectionⅢⅣ含解析新人教版必修5.doc
- 2024_2025学年新教材高中英语模块素养检测含解析译林版必修第一册.doc
- 2024_2025学年新教材高中英语单元综合检测5含解析外研版选择性必修第一册.doc
- 2024高考政治一轮复习第1单元生活与消费第三课多彩的消费练习含解析新人教版必修1.doc
- 2024_2025学年新教材高中英语WELCOMEUNITSectionⅡReadingandThi.doc
- 2024_2025学年高中历史专题九当今世界政治格局的多极化趋势测评含解析人民版必修1.docx
- 2024高考生物一轮复习第9单元生物与环境第29讲生态系统的结构和功能教案.docx
- 2024_2025学年新教材高中英语UNIT5LANGUAGESAROUNDTHEWORLDSect.doc
文档评论(0)