《Spark技术》_《Spark技术》_项目五.pptxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

项目五Kakfa集群的构建与安装延时符

序言02延时符项目描述在xx系统中,数据来源于数据采集模块Flume。经过Flume的数据需要使用SparkStreaming进行实时分析,以防Flume中的数据在某一时段过多而影?响SparkStreaming稳定性。但是,如果将Flume的数据存入分布式数据库或者??磁盘中,再使用SparkStreaming进行处理,由于分布式数据库和磁盘在读取??和存储大量数据时有大量磁盘I/O,效率低下,这样就背离了实时处理数据的初衷。项目分析为了保证数据源头的数据在峰值时可以被全量接收,同时,又能使Spark-Streaming对流数据稳定处理,可以选择消息中间件Kafka来解决。数据首先接?入Kafka,然后SparkStreaming读取Kafka中的数据。Kafka起到缓冲数据、解耦的作用。

0301OPTION02OPTION集群搭建集群规划目录页延时符03OPTION04OPTION安装准备Kafka集群搭建

集群搭建1.运行平台支持2.软件环境3.集群构建流程04任务1

05集群搭建Kafka是一个支持分区(parition)、多副本(replica)、基于ZooKeeper的协调的分布式??消息系统,它的最大的特点就是可以实时地处理大量数据,以满足各种需求场景。比如基于??Hadoop的批处理系统、低延迟的实时系统、Storm/Spark流式处理引擎、Web/Nginx日志、??访问日志、消息服务等。

可扩展:Kafka支持热扩展,可以动态增加节点及存储单元。

持久性、可靠性:消息不经过内存持久化到本地磁盘,并且支持数据备份,防止数据 丢失。可以由用户来指定数据备份的份数,管理灵活。

容错性:允许集群中节点失败,会有其他节点代替当前节点进行数据传输。

高并发:Kafka内部使用了零拷贝技术,就是数据在节点之间保存,传输时不需要经过用户空间,可以直接通过节点的网卡将数据传输。Kafka支持上千个客户端同时读写, 可达到百兆每秒的传输量。

06集群搭建BrokerZooKeeperBroker是组成Kafka集群的节点,一个Kafka集群可以由多个Broker节点组成。Kafka是??消费订阅模式,Kafka数据的源头叫作Kafka的生产者,消费Kafka的一端叫作Kafka的消费??者。Broker负责消息的读写请求,保存来自生产者的数据和为消费者提供消息,除此之外,??Broker还负责消息副本的保存。ZooKeeper是分布式协调系统。在KafKa集群中,ZooKeeper负责保存Kafka集群中的元??数据信息,这些元数据包括Broker节点信息、Topic信息、Partition信息及各种配置状态。??在Kafka0.8版本之前,ZooKeeper还负责保存管理消费者的消费消息位置(offset)。完整的Kafka集群节点划分应当包含以下两个部分

07集群搭建理论上,Kafka可以运行在Linux、Windows、MacOS、UNIX等操作系统上。其中基于Linux安装是最常见的一种,因为Linux系统开源、免费且支持软件多,大多数服务器都选择Linux系统,很多数据处理技术也是基于Liunx处理。因此,在Liunx系统中安装Kafka是首要选择。运行平台支持软件环境Kafka使用Scala语言编写,由于Scala是基于JVM运行的,所以,无论在哪个系统中搭建Kafka集群,节点上都要安装JDK。

除Java以外,还需要在集群内的全部主机中都安装SSH并且保证SSHD进程一直运行。配置主机之间的免密登录能够更好地保证Kafka运行过程中不需要大量的人工介人,这就需要用到节点之间的免密通信手段。

安装Kafka还需要分布式协调系统ZooKeeper。

08集群搭建集群构建流程 1.规划Kafka集群在安装之前,要根据硬件条件及项目需求对集群进行整体的规划,通常包括主机规划、??软件规划、网络拓扑结构规划及集群规划。2.构建运行平台按照集群规划方案进行安装主机操作系统、修改主机名称、配置主机IP地址等工作。3.安装配置软件按照集群规划方案配置集群间的免密登录,为每台主机安装JDK。为了确保SSHD能够开机运行,要额外做一些确认工作。4.安装配置Kafka按照集群规划方案为每台主机安装Kafka,并将Kafka配置为与集群规划方案一致的角色。5.启动Kafka并验证此时,Kafka已经按照集群规划完成了全部的安装部署。为了确保安装配置的Kafka能够正常运行,要启动Kafka的各个进程,查看各节点的状态,查看ZooKeeper中的状态信息。

集群规划1.

您可能关注的文档

文档评论(0)

kd8w + 关注
实名认证
文档贡献者

kd8w

1亿VIP精品文档

相关文档