《Spark技术》_《Spark技术》_项目五.pptxVIP

下载本文档

0
0
约4.97千字
约 32页
2026-01-05 发布于广东
举报
版权申诉

《Spark技术》_《Spark技术》_项目五.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

项目五Kakfa集群的构建与安装延时符

序言02延时符项目描述在xx系统中，数据来源于数据采集模块Flume。经过Flume的数据需要使用SparkStreaming进行实时分析，以防Flume中的数据在某一时段过多而影?响SparkStreaming稳定性。但是，如果将Flume的数据存入分布式数据库或者??磁盘中，再使用SparkStreaming进行处理，由于分布式数据库和磁盘在读取??和存储大量数据时有大量磁盘I/O，效率低下，这样就背离了实时处理数据的初衷。项目分析为了保证数据源头的数据在峰值时可以被全量接收，同时，又能使Spark-Streaming对流数据稳定处理，可以选择消息中间件Kafka来解决。数据首先接?入Kafka，然后SparkStreaming读取Kafka中的数据。Kafka起到缓冲数据、解耦的作用。

0301OPTION02OPTION集群搭建集群规划目录页延时符03OPTION04OPTION安装准备Kafka集群搭建

集群搭建1.运行平台支持2.软件环境3.集群构建流程04任务1

05集群搭建Kafka是一个支持分区(parition)、多副本(replica)、基于ZooKeeper的协调的分布式??消息系统，它的最大的特点就是可以实时地处理大量数据，以满足各种需求场景。比如基于??Hadoop的批处理系统、低延迟的实时系统、Storm/Spark流式处理引擎、Web/Nginx日志、??访问日志、消息服务等。

可扩展:Kafka支持热扩展，可以动态增加节点及存储单元。

持久性、可靠性:消息不经过内存持久化到本地磁盘，并且支持数据备份，防止数据丢失。可以由用户来指定数据备份的份数，管理灵活。

容错性:允许集群中节点失败，会有其他节点代替当前节点进行数据传输。

高并发:Kafka内部使用了零拷贝技术，就是数据在节点之间保存，传输时不需要经过用户空间，可以直接通过节点的网卡将数据传输。Kafka支持上千个客户端同时读写，可达到百兆每秒的传输量。

06集群搭建BrokerZooKeeperBroker是组成Kafka集群的节点，一个Kafka集群可以由多个Broker节点组成。Kafka是??消费订阅模式，Kafka数据的源头叫作Kafka的生产者，消费Kafka的一端叫作Kafka的消费??者。Broker负责消息的读写请求，保存来自生产者的数据和为消费者提供消息，除此之外，??Broker还负责消息副本的保存。ZooKeeper是分布式协调系统。在KafKa集群中，ZooKeeper负责保存Kafka集群中的元??数据信息，这些元数据包括Broker节点信息、Topic信息、Partition信息及各种配置状态。??在Kafka0.8版本之前，ZooKeeper还负责保存管理消费者的消费消息位置(offset)。完整的Kafka集群节点划分应当包含以下两个部分

07集群搭建理论上，Kafka可以运行在Linux、Windows、MacOS、UNIX等操作系统上。其中基于Linux安装是最常见的一种，因为Linux系统开源、免费且支持软件多，大多数服务器都选择Linux系统，很多数据处理技术也是基于Liunx处理。因此，在Liunx系统中安装Kafka是首要选择。运行平台支持软件环境Kafka使用Scala语言编写，由于Scala是基于JVM运行的，所以，无论在哪个系统中搭建Kafka集群，节点上都要安装JDK。

除Java以外，还需要在集群内的全部主机中都安装SSH并且保证SSHD进程一直运行。配置主机之间的免密登录能够更好地保证Kafka运行过程中不需要大量的人工介人，这就需要用到节点之间的免密通信手段。

安装Kafka还需要分布式协调系统ZooKeeper。

08集群搭建集群构建流程 1.规划Kafka集群在安装之前，要根据硬件条件及项目需求对集群进行整体的规划，通常包括主机规划、??软件规划、网络拓扑结构规划及集群规划。2.构建运行平台按照集群规划方案进行安装主机操作系统、修改主机名称、配置主机IP地址等工作。3.安装配置软件按照集群规划方案配置集群间的免密登录，为每台主机安装JDK。为了确保SSHD能够开机运行，要额外做一些确认工作。4.安装配置Kafka按照集群规划方案为每台主机安装Kafka，并将Kafka配置为与集群规划方案一致的角色。5.启动Kafka并验证此时，Kafka已经按照集群规划完成了全部的安装部署。为了确保安装配置的Kafka能够正常运行，要启动Kafka的各个进程，查看各节点的状态，查看ZooKeeper中的状态信息。

集群规划1.

您可能关注的文档

文档评论（0）

kd8w + 关注: 实名认证

文档贡献者

kd8w

咨询Ta 进入空间

1亿VIP精品文档

更多 >

《Spark技术》_《Spark技术》_项目五.pptxVIP