《大数据平台部署与运维》课件——分布式数据仓库技术Hive.pptxVIP

  • 0
  • 0
  • 约2.06千字
  • 约 50页
  • 2024-05-03 发布于福建
  • 举报

《大数据平台部署与运维》课件——分布式数据仓库技术Hive.pptx

;学习目标;;Hive概述;Hive概述;解决方案:使用Hadoop

--提供更好的可用性

--提供更好的扩展性

--在提供多台机器的时候,效率有一定提升;依然面临的问题:专业人才短缺以及统一数据管理需求

--编写Map-Reduce程序学习成本高

--现有员工基本都熟悉sql语言

--需要一个元数据管理模块来管理数据

;Hive最初是由Facebook设计的,是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的类SQL查询语言(称为HiveQL)。

底层将HiveQL语句转换为MapReduce任务运行,它允许熟悉SQL的用户基于Hadoop框架分析数据。

优点是学习成本低,对于简单的统计分析,不必开发专门的MapReduce程序,直接通过HiveQL即可实现。;Hive概述;;Hive概述;日志分析:大部分互联网公司使用hive进行日志分析,包括百度、淘宝等。

统计网站一个时间段内的pv、uv

多维度数据分析

海量结构化数据离线分析

;;Hive安装配置;进入到Hive的安装目录的conf

文档评论(0)

1亿VIP精品文档

相关文档