“1+X”大数据平台运维职业技能等级证书（中级）高职全套完整教学课件.pptx

下载文档

6
0
约6.09千字
约 495页
2023-04-23 发布于浙江
举报
版权申诉
保障服务

“1+X”大数据平台运维职业技能等级证书（中级）高职全套完整教学课件.pptx

1、本文档共495页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

;大数据平台系统架构特点;;大数据的处理流程;标题;大数据关键技术——大数据采集技术;大数据关键技术——大数据预处理技术;大数据关键技术——大数据存储及管理技术;大数据关键技术——数据分析技术;大数据关键技术——数据分析技术;大数据关键技术——数据分析技术;大数据关键技术——大数据展示技术;大数据平台系统架构原理;大数据系统的逻辑结构;标题;标题;大数据平台系统架构典型行业应用场景;大数据应用行业分析;;;大数据实施和运维的工作职责;标题;;大数据项目实施工作流程;标题;标题;;大数据发展历程;标题;Hadoop生态圈中行业应用案例;公司;;电信行业-中国移动基于Hadoop的大数据应用 ;;;实验一：基础环境配置;;标题;标题;标题;标题;;标题;标题;标题;实验二：Hadoop集群部署;;标题;标题;标题;实验三：Hadoop集群启动测试;;标题;标题;;;实验一：高可用ZooKeeper集群部署;;标题;标题;标题;;标题;标题;实验二：高可用Hadoop集群部署;;标题;标题;标题;标题;;标题;标题;;;实验一：高可用集群启动;;标题;启动 MapReduce任务历史服务器查看端口和进程;;标题;标题;标题;;; 第一部分：HBase概述;HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库，是谷歌BigTable的开源实现，主要用来存储非结构化和半结构化的松散数据。HBase的目标是处理非常庞大的表，可以通过水平扩展的方式，利用廉价计算机集群处理由超过10亿行数据和数百万列元素组成的数据表 ;关系数据库已经流行很多年，并且Hadoop已经有了HDFS和MapReduce，为什么需要HBase? Hadoop可以很好地解决大规模数据的离线批量处理问题，但是，受限于Hadoop MapReduce编程框架的高延迟数据处理机制，使得Hadoop无法满足大规模数据实时处理应用的需求 HDFS面向批量访问模式，不是随机访问模式传统的通用关系型数据库无法应对在数据规模剧增时导致的系统扩展性和性能问题（分库分表也不能很好解决）传统关系数据库在数据结构变化时一般需要停机维护；空列浪费存储空间因此，业界出现了一类面向半结构化数据存储和处理的高可扩展、低写入/查询延迟的系统，例如，键值数据库、文档数据库和列族数据库（如BigTable和HBase等） HBase已经成功应用于互联网服务领域和传统行业的众多在线式数据分析处理系统中 ; 第二部分：HBase分布式部署; 第三部分：HBase 库操作与表操作;节点动态下线;表属性; 第四部分：HBase数据操作;简单操作; 第四部分：批量导入/导出;数据导入;数据导出;注意事项;;; 第一部分：Hive概述;;特点总结： Hive是基于Hadoop的一个数据仓库工具（分布式存储）。存储、查询和分析（类似MySQL）。提供SQL查询功能，转变成MapReduce任务。（计算）;;Hive在生产上只需要在集群某个节点上部署，操作Hive只需要通过它提供的客户端即可，Hive提供了大致三类客户端： hive shell：通过hive shell来操作hive。 WebUI：通过HUE/Zeppelin来对Hive表进行操作。基于JDBC等协议：启动hiveserver2，通过jdbc协议可以访问hive，hiveserver2支持高并发。 Hive2.0后自带hiveserver2服务。简而言之，hiveserver2是Hive启动了一个server，客户端可以使用JDBC协议，通过IP+ Port的方式对其进行访问，达到并发访问的目的。;hive中包含以下四类数据模型：表(Table)、外部表(External Table)、分区(Partition)、桶(Bucket)。?[ Hive中的Table和数据库中的Table在概念上是类似的。在Hive中每一个Table都有一个相应的目录存储数据。外部表是一个已经存储在HDFS中，并具有一定格式的数据。分区对应于数据库中的分区列的密集索引，表中的一个分区对应于表下的一个目录，所有的分区的数据都存储在对应的目录中。桶对指定列进行哈希(hash)计算，会根据哈希值切分数据，目的是为了并行，每一个桶对应一个文件; 第二部分：Hive分布式部署; 第三部分：Hive 库操作与表操作;; 第四部分：Hive查询;;select查询;select查询;;; 第一部分：ZooKeeper概述;; ZooKeeper是Hadoop的正式子项目，它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。;ZooKeeper简介;为什么需要ZooKeeper ; 第二部分：ZooKeepe