Spark Streaming 对数据流的“批处理”不是“流处理”的五大理由.docVIP

下载本文档

4
0
约1.86千字
约 3页
2015-09-26 发布于重庆
举报

Spark Streaming 对数据流的“批处理”不是“流处理”的五大理由.doc

Spark Streaming 对数据流的“批处理”不是“流处理”的五大理由

Spark Streaming 对数据流的“批处理”不是“流处理”的五大理由原文作者：Ronnie Beggs ?本文由36大数据翻译组-Teradata数据挖掘顾问谢博翻译，转载必须获得本站、原作者、译者的同意，拒绝任何不表明译者及来源的转载！目前存在着很多种在实时数据被保存进数据库之前系统对这些数据进行处理的方式。例如，现在最常见的两个开源平台就是Apache Storm 和 Apache Spark（带有它自身Spark Streaming框架），它们都拥有一种非常特有的处理数据流的方法。Storm，像SQLstream Blaze、IBM InfoSphere Streams还有其它一些产品，是真正的record-by-record流处理引擎。而其它的像Apache Spark则使用一种不同的方式，通过把事件收集起来，然后进行批处理。在考虑这些非常容易混淆的范例的时候，我对需要重点考虑的事项做了如下总结： #1流处理方式与批处理方式在数据流处理的对比在流处理的过程中有两个基本的特征。第一，系统里面的每一条记录都要有一个时间戳，99%的记录都是把数据产生的那个时间作为时间戳；第二，每一条记录都是当它到达的时候就被处理。这两个特性可以保证系统能够根据时间的先后对每一条记录进行反应，并且把延迟降低到毫秒级。相比而言，像Spark Streaming这种把数据流批处理的方法，

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

Spark Streaming 对数据流的“批处理”不是“流处理”的五大理由.docVIP