Hadoop技术生态组件.pptx

下载文档

0
0
约1.59千字
约 15页
2023-05-31 发布于安徽
举报
版权申诉
保障服务

Hadoop技术生态组件.pptx

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Hadoop技术生态组件 1、了解Hadoop技术生态组件目录02Hadoop技术生态组件01组件分类组件分类1 组件分类组件分类文件系统资源调度计算框架文件系统资源调度计算框架 Hadoop技术生态组件2 Hadoop技术生态组件文件系统： HDFS,目前大量采用的分布式文件系统，是整个大数据应用场景的基础通用文件存储组件。 S3, Simple Storage Service简单存储服务，更好的可扩展性，内置的持久性，以及较低的价格。 Hadoop技术生态组件资源调度： YARN,分布式资源调度，可以接收计算的任务把它分配到集群各节点处理，相当于大数据操作系统，通用性好，生态支持好； Mesos，同YARN类似，偏向于资源的抽象和管理。 Hadoop技术生态组件计算框架： Spark序列，有流计算、图计算、机器学习； Flink，支持计算数据不断变化，即增量计算； Storm，专注于流式计算，功能强大； Mapreduce, 分布式计算基本计算框架，编程难度高，执行效率低。 Hadoop技术生态组件数据库： Hbase，一种NoSQL列簇数据库，支持数十亿行数百万列大型数据储存和访问，尤其是写数据的性能非常好，数据读取实时性较好，提供一套API，不支持SQL操作，数据存储采用HDFS；?????? ?Cassandra，对大型表格和?Dynamo支持得最好；?????? ?Redis，运行异常快，还可应用于分布式缓存场景； Hadoop技术生态组件 SQL支持： Spark SQL，由Shark、Hive发展而来的，以SQL方式访问数据源（如hdfs、hbase、S3、redis甚至关系统数据库等，下同）；?????? Phoenix，一套专注于SQL方式访问hbase的JDBC驱动，支持绝大部分SQL语法，支持二级索引，支持事务，低延时；???????Hive，通过HQL（类似SQL）来统计分析生成查询结果，通过解析HQL生成可以Mapreduce上执行的任务，典型的应用场景是与hbase集成；?????? 其它：impala、pig等，都实现了类似的功能，解决了直接写map/reduce分析数据的复杂性，降低了数据分析工作者或开发人员使用大数据的门槛。 Hadoop技术生态组件其他工具： ?分布式协作zookeeper,可以理解为一个小型高性能的数据库，为生态圈中与很多组件提供发布订阅的功能，还可以监测节点是否失效（心跳检测），如HBase、Kafka中利用zookeeper存放了主从节点信息；?????? ?Kafka,?是一种分布式的，基于发布/订阅的消息系统,类似于消息对列的功能，可以接收生产者（如webservice、文件、hdfs、hbase等）的数据，本身可以缓存起来，然后可以发送给消费者（同上），起到缓冲和适配的作；???? ? Hadoop技术生态组件其他工具： ?Flume,分布式的海量日志采集、聚合和传输的系统，主要作用是数据的收集和传输，也支持非常多的输入输出数据源；?????? Sqoop，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如?：?MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。 1、Hadoop技术生态组件