Spark Streaming微批处理技术提升流式计算吞吐量分析.pdfVIP

  • 1
  • 0
  • 约小于1千字
  • 约 1页
  • 2026-05-13 发布于北京
  • 举报

Spark Streaming微批处理技术提升流式计算吞吐量分析.pdf

如果来一条数据就处理一条数据,可能会导致每条数据要处理假设1毫秒,那么此时每秒可

以处理1000条数据,这就是每秒的吞吐量,但是如果采用微批处理技术呢?比如说把9毫

秒内的数据收集起来一共有1000条数据,接着交给引擎来处理,1毫秒就把1000条

数据给处理完了。

Kafka现在采取batch思路,10毫秒处理了1000条数据,每个系统发送数据过来到处理完成

花费10毫秒,延迟提高了10倍,Kafka的吞吐量提高了,每秒可以处理10万条数据,吞吐

量是提升了100倍。

那么就相当于是10毫秒处理了1000条数据,每秒可以处理10万条数据,吞吐量是不是就

提升了100倍?

这个就是所谓的流式计算采用的微批处理技术,你一条一条处理,每条数据都需要启动新的

计算资源,有网络开销,甚至是磁盘开销。但是你处理1000条,跟你处理1

条其实是差不多的

因为用的计算资源什么都差不多,但是在内存里一下子可以处理完1000条数据

这就是说,提升了吞吐量,但是计算的延时就增加了,一条数据过来,需要10毫秒才

能处理完毕。但是你要是降低计算的延时,那么吞吐量就降低了,数据来了1毫秒就处理完

毕,但是

文档评论(0)

1亿VIP精品文档

相关文档