- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
项目二工业制造数据采集工业大数据采集技术主讲:罗金凯
工业制造数据采集概述Kafka概述Kafka集群搭建Kafka集群消息订阅与发布分布式采集原理与实现工业制造电力变压数据采集案例CONTENTS
工业制造数据采集概述01
工业制造数据采集概述工业制造数据采集定义使用信息化手段采集工业制造过程的数据,包括多源异构设备和系统、环境、人员等一切要素信息进行采集,常见的有传感器数据、条码数据、射频数据等。
工业制造数据采集概述工业制造数据特点(1)多种工业协议并存。工业软硬件系统存在较强的封闭性和复杂性,且不同的厂商使用不同的协议。(2)时间序列数据。以结构化数据为主(3)实时性
Kafka概述02
Kafka简介Kafka是一种分布式的,基于发布/订阅的消息系统。最早是LinkedIn内用作LinkedIn的活动流(ActivityStream)和运营数据处理管道(Pipeline)的基础Kafka图标:Kafka目前是Apache基金委员会下的一个开源项目Kafka官方网站:/
Kafka设计目标以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间复杂度的访问性能(1)多种工业协议并存。高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条以上消息的传输。支持KafkaServer间的消息分区,及分布式消费,同时保证每个Partition内的消息顺序传输。同时支持离线数据处理和实时数据处理,并支持在线水平扩展。
Kafka概念——生产者与消费者对于Kafka来说客户端有两种基本类型:生产者(Producer)和消费者(Consumer)。很容易理解,生产者(也称为发布者)创建消息,而消费者(也称为订阅者)负责消费or读取消息。
Kafka概念——主题与分区Kafka中消息是以主题(Topic)来分类。类似数据库中的表,将相同类型的消息存储到同一个主题中,数据库中的表是结构化的,Topic的属于半结构化的,主题可以包含多个分区,KafKa是一个分布式消息系统,分区是kafka的分布式的基础,分区使kafka具备了拓展性,如果数据存储在单服务器上,可能会遇到存储的限制,从而导致性能的瓶颈。
Kafka概念——主题与分区Kafka将主题拆分为多个分区,不同的分区存在不同的服务器上,这样就使kafka具有拓展性,可以通过调整分区的数量和节点的数量,来线性对Kafka进行拓展,分区是一个线性增长的不可变日志,当消息存储到分区中之后,消息就不可变更,kafka为每条消息设置一个偏移量也就是offset,offset可以记录每条消息的位置,kafka可以通过偏移量对消息进行提取,但是没法对消息的内容进行检索和查询,偏移量在每个分区中是唯一的不可重复,并且它是递增的,不同分区间偏移量可以重复。
Kafka概念——主题与分区
Kafka概念——主题与分区kafka中的消息Record是以键值对的形式进行存储的,如果不指定key,key的值为空,当发送消息key为空,kafka会以轮询的方式将不同的消息,存放到不同的分区中,如果指定了消息key,相同的key会被写入到同一个分区,这样就可以保证具有相同key的消息按照一定的顺序进行写入。分区可以保证kafka的集群进行线性的拓展。
Kafka概念——主题与分区kafka中的消息Record是以键值对的形式进行存储的,如果不指定key,key的值为空,当发送消息key为空,kafka会以轮询的方式将不同的消息,存放到不同的分区中,如果指定了消息key,相同的key会被写入到同一个分区,这样就可以保证具有相同key的消息按照一定的顺序进行写入。分区可以保证kafka的集群进行线性的拓展。
Kafka概念——主题与分区
Kafka概念——主题与分区Kafka中的每一个分区可以根据需要设置分区备份数。如果分区只存在一份的话,一旦分区损害,这份数据就会丢失,kafka通过副本机制,保证数据的可靠性,可以设置副本因子的数量,replication-factor=3,含义就是包含主分区在内三个副本,kafka会选择一个副本做为主分区,主分区称之为leader,所有写入都是写入到leader中的,数据的读取也是从leader中读取的,其他两个副本称之follower,follower从leader中复制数据,保持数据的一致性,kafka会监控副本之间数据同步的状态,在元数据中维护一个ISR的集合,正在同步的副本集。
Kafka概念——主题与分区下面的例子中这三个副本保持正常的数据同步,如果某个副本不能正常的同步数据,或者落后的比较多,kafka会从同步
文档评论(0)