Hive数据仓库实战.pdf

下载文档 降价啦

1082
0
约8.66千字
约 34页
2019-02-03 发布于山东
举报
版权申诉
保障服务

Hive数据仓库实战.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Hive 日志分析实战 About Me 赵修湘缔元信公司数据挖掘工程师，毕业于中国科学院研究生院，曾就职于多家互联网公司担任数据基础平台架构师和数据挖掘工程师，一直致力于大数据行业相关技术的研究。数盟社区合作讲师，曾举办和参与多次hadoop大数据相关的公益讲座。知识点 1 Hive安装部署 2 Hive查询语句使用 3 Hive扩展能力 4 Hive查询语句的优化目录 1 Hive 是什么 2 为什么我们需要Hive 3 Hive如何解决我们所面临的问题 4 利用Hive建立报表系统 5 Hive查询优化不得不提：Hadoop  Hadoop是一款运行在廉价商用服务器之上的，能够对大量数据进行有效存储和处理的软件框架，主要由HDFS分布式文件系统和Mapreduce计算框架组成； Hadoop有如下特点：  高可靠性：hdfs 的冗余存储和mapreduce 的计算容错  高扩展性：hdfs和mapreduce都可以通过添加机器实现水平扩张  高效性：移动计算比移动数据更有效 Hive ：分布式数据仓库构建于hadoop 的hdfs和mapred之上，用于管理和查询结构化/非结构化数据的数据仓库。 使用HQL作为查询接口 使用HDFS作为底层存储 使用MapRed作为执行层目录 1 Hive 是什么 2 为什么我们需要Hive 3 Hive如何解决我们所面临的问题 4 利用Hive建立报表系统 5 Hive查询优化大数据的挑战海量数据时代的到来 IDC数据表明，全球企业数据正以55%的速度逐年增长，IDC预计，到2020年，全球数字信息总量将增长44倍。以某网络视频公司为例：每天新增数据量高达 500G。非结构化数据的爆炸式增长有超过80%的数据都是非结构化的，如网站访问日志、移动互联网数据和聊天交流工具记录等。长时间存储和查询分析需要愈加激烈的竞争要求对客户进行更加深入细致的分析。传统技术无法胜任大数据的存储、管理、分析和挖掘传统的关系型数据库以及BI分析工具通常只能处理GB级别的结构化数据。关系型数据库的最佳替换者  虽然Hadoop 的hdfs和mapred 已经能够很好的解决大数据的存储和分析问题，但是对于传统的数据分析人员来说，他们还面临着以下挑战： 1、理解mapred计算模型 2、自行开发代码实现业务逻辑这对习惯于使用传统关系型数据库的数据分析人员来说，上述挑战几乎是不可逾越的。  Hive 的出现，完美的解决了传统数据分析人员所面临的问题。Hive使用类SQL查询语法，最大限度的实现了和SQL标准的兼容。目录 1 Hive 是什么 2 为