- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hive 日志分析实战
About Me
赵修湘
缔元信公司数据挖掘工程师,毕业于中国
科学院研究生院,曾就职于多家互联网公
司担任数据基础平台架构师和数据挖掘工
程师,一直致力于大数据行业相关技术的
研究。数盟社区合作讲师,曾举办和参与
多次hadoop大数据相关的公益讲座。
知识点
1 Hive安装部署
2 Hive查询语句使用
3 Hive扩展能力
4 Hive查询语句的优化
目录
1 Hive 是什么
2 为什么我们需要Hive
3 Hive如何解决我们所面临的问题
4 利用Hive建立报表系统
5 Hive查询优化
不得不提:Hadoop
Hadoop是一款运行在廉价商用服务器之上的,能够
对大量数据进行有效存储和处理的软件框架,主要
由HDFS分布式文件系统和Mapreduce计算框架组成;
Hadoop有如下特点:
高可靠性:hdfs 的冗余存储和mapreduce 的计算容错
高扩展性:hdfs和mapreduce都可以通过添加机器实
现水平扩张
高效性:移动计算比移动数据更有效
Hive :分布式数据仓库
构建于hadoop 的hdfs和mapred之上,用于管理
和查询结构化/非结构化数据的数据仓库。
使用HQL作为查询接口
使用HDFS作为底层存储
使用MapRed作为执行层
目录
1 Hive 是什么
2 为什么我们需要Hive
3 Hive如何解决我们所面临的问题
4 利用Hive建立报表系统
5 Hive查询优化
大数据的挑战
海量数据时代的到来
IDC数据表明,全球企业数据正以55%的速度逐年增长,IDC预计,到2020年,全
球数字信息总量将增长44倍。以某网络视频公司为例:每天新增数据量高达
500G。
非结构化数据的爆炸式增长
有超过80%的数据都是非结构化的,如网站访问日志、移动互联网数据和聊天交
流工具记录等。
长时间存储和查询分析需要
愈加激烈的竞争要求对客户进行更加深入细致的分析。
传统技术无法胜任大数据的存储、管理、分析和挖掘
传统的关系型数据库以及BI分析工具通常只能处理GB级别的结构化数据。
关系型数据库的最佳替换者
虽然Hadoop 的hdfs和mapred 已经能够很好的解决大数
据的存储和分析问题,但是对于传统的数据分析人
员来说,他们还面临着以下挑战:
1、理解mapred计算模型
2、自行开发代码实现业务逻辑
这对习惯于使用传统关系型数据库的数据分析人
员来说,上述挑战几乎是不可逾越的。
Hive 的出现,完美的解决了传统数据分析人员所面
临的问题。Hive使用类SQL查询语法,最大限度的
实现了和SQL标准的兼容。
目录
1 Hive 是什么
2 为
文档评论(0)