Hive数据仓库实战.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Hive 日志分析实战 About Me 赵修湘 缔元信公司数据挖掘工程师,毕业于中国 科学院研究生院,曾就职于多家互联网公 司担任数据基础平台架构师和数据挖掘工 程师,一直致力于大数据行业相关技术的 研究。数盟社区合作讲师,曾举办和参与 多次hadoop大数据相关的公益讲座。 知识点 1 Hive安装部署 2 Hive查询语句使用 3 Hive扩展能力 4 Hive查询语句的优化 目录 1 Hive 是什么 2 为什么我们需要Hive 3 Hive如何解决我们所面临的问题 4 利用Hive建立报表系统 5 Hive查询优化 不得不提:Hadoop  Hadoop是一款运行在廉价商用服务器之上的,能够 对大量数据进行有效存储和处理的软件框架,主要 由HDFS分布式文件系统和Mapreduce计算框架组成; Hadoop有如下特点:  高可靠性:hdfs 的冗余存储和mapreduce 的计算容错  高扩展性:hdfs和mapreduce都可以通过添加机器实 现水平扩张  高效性:移动计算比移动数据更有效 Hive :分布式数据仓库 构建于hadoop 的hdfs和mapred之上,用于管理 和查询结构化/非结构化数据的数据仓库。 使用HQL作为查询接口 使用HDFS作为底层存储 使用MapRed作为执行层 目录 1 Hive 是什么 2 为什么我们需要Hive 3 Hive如何解决我们所面临的问题 4 利用Hive建立报表系统 5 Hive查询优化 大数据的挑战 海量数据时代的到来 IDC数据表明,全球企业数据正以55%的速度逐年增长,IDC预计,到2020年,全 球数字信息总量将增长44倍。以某网络视频公司为例:每天新增数据量高达 500G。 非结构化数据的爆炸式增长 有超过80%的数据都是非结构化的,如网站访问日志、移动互联网数据和聊天交 流工具记录等。 长时间存储和查询分析需要 愈加激烈的竞争要求对客户进行更加深入细致的分析。 传统技术无法胜任大数据的存储、管理、分析和挖掘 传统的关系型数据库以及BI分析工具通常只能处理GB级别的结构化数据。 关系型数据库的最佳替换者  虽然Hadoop 的hdfs和mapred 已经能够很好的解决大数 据的存储和分析问题,但是对于传统的数据分析人 员来说,他们还面临着以下挑战: 1、理解mapred计算模型 2、自行开发代码实现业务逻辑 这对习惯于使用传统关系型数据库的数据分析人 员来说,上述挑战几乎是不可逾越的。  Hive 的出现,完美的解决了传统数据分析人员所面 临的问题。Hive使用类SQL查询语法,最大限度的 实现了和SQL标准的兼容。 目录 1 Hive 是什么 2 为

文档评论(0)

xingyuxiaxiang + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档