第八章分布式数据仓库Hive .pptx

下载文档

0
0
约1.1万字
约 31页
2024-03-29 发布于四川
举报
版权申诉
保障服务

第八章分布式数据仓库Hive .pptx

1、本文档共31页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

分布式数据仓库Hive任务1Hive概述任务2Hive功能与架构任务3Hive基本操作数据仓库和数据库数据库前端业务增删改查快数据库，文件系统数据分析数据仓库Hive简介Hive是基于Hadoop的数据仓库软件，可以查询和管理PB级别的分布式数据。Hive特性：灵活方便的ETL(extract/transform/load)。支持MapReduce，Tez，Spark等多种计算引擎。可直接访问HDFS文件以及HBase。易用易编程。Hive的应用场景数据仓库数据挖掘数据汇总非实时分析数据抽取数据加载数据转换日志分析文本分析每天/每周用户点击数流量统计用户行为分析兴趣分区区域展示Hive在FusionInsight中的位应用服务层REST/SNMP/SyslogOpenAPI/SDKMinerDataFarmerKnowledgePorterInformationWisdomManagerDataFarm系统管理PluginAPIHadoopAPILibrA服务治理HIVEM/RSparkStormSolrHadoopYARN/Zookeeper安全管理HDFS/HBaseHive是一种数据仓库处理工具，使用类SQL的HiveQL语言实现数据查询功能，所有Hive的数据都存储在HDFS中。Hive与传统数据仓库比较(1)Hive传统数据仓库存储HDFS，理论上有无限拓展的可能。集群存储，存在容量上限。只能适应于数据量比较小的商业应用，对于超大规模,半结构或非结构化数据无能为力。执行引擎有MR/Tez/Spark多种引擎可供选择。可以选择更加高效的算法来执行查询，也可以进行更多的优化措施来提高速度。使用方式HQL（类似SQL）。SQL。灵活性元数据存储独立于数据存储之外，从而解耦合元数据和数据。低，数据用途单一。分析速度计算依赖于集群规模，易拓展，在大数据量情况下，远远快于普通数据仓库，但复杂的关联交叉运算其速度很慢,宽表用HIVE做比较低效。复杂查询性能高于Hive,简单大规模（百TB级数据）查询性能较Hive弱。Hive与传统数据仓库比较(2)Hive传统数据仓库索引低效，目前还不完善。高效。易用性需要自行开发应用模型，灵活度较高，但是易用性较低。集成一整套成熟的的报表解决方案，可以较为方便的进行数据的分析。可靠性数据存储在HDFS，可靠性高，容错性高。可靠性较低，一次查询失败需要重新开始。数据容错大部分依赖于硬件Raid，软件角度不同产品差异较大。依赖环境依赖硬件较低，可适应一般的普通机器。依赖于高性能的商业服务器，对X86服务器的配置统一性要求较高。价格开源产品。商用比较昂贵。Hive的优点Hive的优点类SQL可扩展高可靠、高容错多接口1.HiveServer采用集群模式2.双MetaStore3.超时重试机制1.Beeline2.JDBC3.Thrift4.Python5.ODBC1.类似SQL语法2.内置大量函数1.自定义存储格式2.自定义函数2341Hive缺点Hive的缺点不适用OLTP不支持物化视图延迟较高暂不支持存储过程1.默认MR为执行引擎。2.MR延迟较高。1.Hive支持普通视图，不支持物化视图。2.Hive不能在视图上更新、插入、删除数据。1.暂不支持列级别的数据添加、更新、删除操作。1.当前版本不支持存储过程，只能通过UDF来实现一些逻辑处理。1234Hive的架构HiveODBCJDBCCommandLineInterfaceWebInterfaceThriftServerDriver(Compiler,Optimizer,Executor)MetastoreFusionInsightHD中Hive的架构Hive分为三个角色HiveServer、MetaStore、WebHcat。HiveServer将用户提交的HQL语句进行编译，解析成对应的Yarn任务、Spark任务或者HDFS操作，从而完成数据的提取、转换、分析。MetaStore提供元数据服务。WebHcat对外提供基于https协议的元数据访问、DDL查询等服务。WebHCat架构WebHCat提供Rest接口，使用户能够通过安全的HTTPS协议执行以下操作：执行HiveDDL操作。运行HiveHQL任务。运行MapReduce任务。Hive数据存储模型数据库表表分区倾斜数据分区正常数据桶桶桶桶Hive数据存储模型-分区和桶分区：数据表可以按照某个字段的值划分分区。每个分区是一个目录。分区数量不固定。分区下可再有分区或者桶。桶：数据可以根据桶的方式将不同数据放入不同的桶中。每个桶是一个文件。建表时指定桶个数，桶内可排序。数据按照某个字段的值Hash后放入某个桶中。Hive数据存储模型-

您可能关注的文档

文档评论（0）

弹弹 + 关注: 实名认证

内容提供者

人力资源管理师、教师资格证持证人

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：6152114224000010

领域认证该用户于2024年03月13日上传了人力资源管理师、教师资格证

1亿VIP精品文档

更多 >

第八章分布式数据仓库Hive .pptx