第7讲Hive数据仓库.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第7讲 Hive数据仓库 数据分析者面临的问题 数据日趋庞大,无论是入库和查询,都出现性能瓶颈 用户的应用和分析结果呈整合趋势,对实时性和响应时间要求越来越高 使用的模型越来越复杂,计算量指数级上升 数据分析者期待的解决方案 完美解决性能瓶颈,在可见未来不容易出现新瓶颈 过去所拥有的技能可以平稳过渡。比如SQL、R 转移平台的成本有多高?平台软硬件成本,再开发成本,技能再培养成本,维护成本 Hive简介 ?起源自facebook由Jeff Hammerbacher领导的团队 ?构建在Hadoop上的数据仓库框架 ?设计目的是让SQL技能良好,但Java技能较弱的分析师可 以查询海量数据 ?2008年facebook把hive项目贡献给Apache Hive 数据仓库工具。可以把Hadoop下的原始结构化数据变成Hive中的表 支持一种与SQL几乎完全相同的语言HiveQL。除了不支持更新、索引和事务,几乎SQL的其它特征都能支持 可以看成是从SQL到Map-Reduce的映射器 提供shell、JDBC/ODBC、Thrift、Web等接口 Hive不适合用于联机事务处理,也不提供实时查询功能。最适合应用在基于大量不可变数据的批处理作业。 Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的mapper 和 reducer 无法完成的复杂的分析工作。Hive现状 Hadoop生态圈中的重要项目 ?企业级数据仓库的主流架构之一 ?解决“即席查询”的问题 ?注意Cloudera的Impala项目,号称比Hive要快3-30倍 ?兼容SQL是目前大数据产品的风向标 体系结构图1、用户接口主要有三个:命令行(CLI),客户端(Client) 和WEB界面( WUI)。其中最常用的是 CLI,Cli 启动的时候,会同时启动一个 Hive 服务。Client 是 Hive 的客户端,用户连接至 Hive Server。在启动 Client 模式的时候,需要指出 Hive Server 所在节点,并且在该节点启动 Hive Server。 WUI 是通过浏览器访问 Hive。2、元数据存储。Hive 将元数据存储在数据库中,如 mysql、derby嵌入式数据库。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。3、执行。解释器、编译器、优化器完成 HiveQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中,并在随后有 MapReduce 调用执行。4、 HDFS 存储。Hive 的数据存储在 HDFS 中,大部分的查询由 MapReduce 完成(包含 * 的查询,比如 select * from tbl 不会生成 MapRedcue 任务)。Hive 元数据存储Hive 将元数据存储在 RDBMS 中,有三种模式可以连接到数据库: Single User Mode: 此模式连接到一个 In-memory 的数据库 Derby,一般用于 Unit Test。Hive安装 内嵌模式:元数据保持在内嵌的Derby模式,只允许一个会话连接 本地独立模式:在本地安装Mysql,把元数据放到Mysql内 远程模式:元数据放置在远程的Mysql数据库 内嵌模式安装 下载并解压Hive 设置环境变量 (修改profile文件)配置文件 hive-env.sh cp hive-env.sh.template hive-env.sh hive-site.xml cp hive-default.xml.template hive-site.xml 启动hive Hive命令行启动方式:直接输入/hive/bin/hive命令,或者输入hive-service cli命令。Hive web界面启动方式:输入hive-service hwi命令。Hive采用远程服务启动方式:远程服务的端口号为10000,采用hive--service hiveserver命令。Hive采用远程后台启动方式:关闭Hive终端,但是Hive服务不退出,采用nohup hive--service hiveserver命令。简单建删表测试 一个常见错误 解决方法 修改hadoop-env.sh Hive安装:独立模式 可参考网络资源: /xq

文档评论(0)

职教魏老师 + 关注
官方认证
服务提供商

专注于研究生产单招、专升本试卷,可定制

版权声明书
用户编号:8005017062000015
认证主体莲池区远卓互联网技术工作室
IP属地河北
统一社会信用代码/组织机构代码
92130606MA0G1JGM00

1亿VIP精品文档

相关文档