《Spark技术》_《Spark技术》_项目六.pptxVIP

下载本文档

1
0
约5.91千字
约 32页
2026-01-05 发布于广东
举报
版权申诉

《Spark技术》_《Spark技术》_项目六.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

项目六Kafka集群测试延时符

序言02延时符项目描述上一个项目学习了Kafka集群的安装，本项目将对Kafka原理及Kafka集群命令的使用进行学习。项目分析在项目建设过程中，可以使用搭建好的Kafka集群为xx系统做数据缓存使用Kafka的操作命令为xx系统的稳定提供更好的数据保障。因此掌握Kafka集群的架构原理、Kafka应用场景、创建Kafka?Topic的命令、操作Kafka?Topic的命令、Kafka保证数据可靠的机制等是下面要学习和了解的知识。

03OPTION0301OPTION02OPTIONKafka介绍测试Kafka目录页延时符测试KafkaLeader

分布式消息系统1.Kafka介绍2.Kafka架构3.Kafka的特点4.Kafka应用场景5.大数据04任务1

05Kafka介绍是分布式发布-订阅消息系统。它最初由LinkedIn公司开发，之后成为Apache项目的一部分。Kafka是一个分布式的、可划分的、冗余备份的持久性的日志服务。主要用于处理活跃的流式数据。在大数据系统中，常常会碰到一个问题，即整个大数据由各个子系统组成，数据需要在各个子系统中高性能、低延迟地不停地流转。传统的企业消息系统并不是很适合大规模的数据处理。为了同时处理在线应用(消息)和离线应用(数据文件、日志)，出现了Kafka。KafkaKafka的两个作用:

①降低系统组网复杂度。

②降低编程复杂度。各个子系统不再是相互协商接口，各个子系统类似插口插在插座??上，Kafka承担高速数据总线的作用。

06Kafka介绍吞吐量负载均衡可扩展性与其他的消息系统相比，Kafka分布式消息系统在设计上综合考虑了以下方面,Kafka更适合在大数据场景中使用。拉取系统

07Kafka架构Kafka是显式分布式结构Kafka是生产者/消费者模式，向Kaf-??ka中生产消息的一端叫作生产者，生产者可以有多个，这样可以由多个生产者向Kafka中生产消息。消息写往Kafka中的Broker节点，由于Kafka中采用了零拷贝技术，消息直接写到Broker节点的磁盘上。Broker节点也可以有多个，这样为Kafka集群的高可用及分布式提供了保证。消费Kafka消息的一端叫作消费者，消费者也可以有多个，这样可以保证消息的并行消费，这也是Kafka分布式消息系统更适用于大数据场景的原因之一。数据从生产者发送到Broker,Broker承担着中间缓存和分发的作用，类似于缓存，即活??跃的数据和离线处理系统之间的缓存。ZooKeeper在Kafka集群中起着协调作用，保存Kafka??集群的元数据信息，可以为Kafka的故障恢复提供保障。

8Kafka架构Kafka集群的结构图如图6-1所示。

9Kafka架afka概念ProducerTopicBrokerPartition05ConsumerKafka分布式消息系统的消息生产者组成Kafka集群的节点06Zookeeper消息队列，一类消息的总称组成KafkaTopic的基本单元消息的消费者，之间不相互影响存储Kafka集群部分元数据信息，存储消费者消息的offset

10Kafka的特点Kafka消息系统同时为发布和订阅提供高吞吐量。据了解，Kafka每秒可以生产约25万消息(50MB)，每秒处理55万消息(110MB)。可进行持久化操作。将消息持久化到磁盘，因此可用于批量消费，例如ETL，以及实时应用程序。通过将数据持久化到硬盘及Replication，防止数据丢失。分布式系统，易于向外扩展。所有的Producer、Broker和Consumer都会有多个，均为分布式的。无须停机即可扩展机器。消息被处理的状态是在Consumer端维护，而不是在Server端。当失败时，能自动平衡。支持online?和fline?的场景。

11Kafka应用场景1、消息队列3、元信息监控6、事件源2、行为跟踪4、日志收集5、流处理7、持久性日志

测试Kafka1.查看集群中的Topic2.创建Topic4.从Topic消费消息12任务23.向Topic生产消息5.Offset查看6.删除Topic信息

13测试Kafka本任务将学习如何使用命令操作Kafka系统、如何创建消息队列、如何查询消息队列、如何生成消息及如何消费消息等。启动Zookeeper集群（在mynode3、mynode4、mynode5上分别别启动）启动Kafka集群。要启动Kafka集群，需要在每台Broker节点上单独启动Kafka。??在mynode1、mynode2、mynode3节点上分别执行命令，启动Kafka，命