Spark的优势技术优势.pptx

下载文档

0
0
约1.26千字
约 10页
2023-06-01 发布于安徽
举报
版权申诉
保障服务

Spark的优势技术优势.pptx

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

《大数据导论》课程Introduction to big data大数据计算平台Spark的优势技术优势01 Spark的优势1.每一个作业独立调度，可以把所有的作业做一个图进行调度，各个作业之间相互依赖，在调度过程中一起调度，速度快。2.所有过程都基于内存，所以通常也将Spark称作是基于内存的迭代式运算框架。3.spark提供了更丰富的算子，让操作更方便。4.更容易的API：支持Python，Scala和JavaSparkMapReduce的一次基本运行在Map结束后会将数据落地HDFS中(如图a、b、c、d标记)，Reduce端才从落地HDFS中拉取数据，中间经过复杂的shuffle阶段。因此，这样的计算框架每次shuffle阶段都会有落地到磁盘，也是影响效率的一方面。aReduce1b, dMap1bReduce2a ,ccMap2dSpark的一次基本运行Spark计算是基于RDD的模型，对于简单的操作，比如map、reduce或是filter之类的操作，在数据量且内存空间允许下是可以直接基于内存进行计算的，这样也就是说有些情况也会落到磁盘，所以Spark的计算速度可以比MapReduce、Hive计算速度快几倍，甚至几十倍。转换转换RDD1RDD2RDD3Spark基于内存依次计算Spark SQLHiveSpark 查询引擎基于HDFS的SQL文件查询表目录Hive 查询引擎分区文件SQL语句查询基于表的SQL查询...Hadoop的HDFS基于Hive 的数据仓库Spark SQL并不是直接全部替换Hive，而只是替换了Hive的查询引擎部分，通过Spark SQL的查询引擎去操作表或是HDFS上的目录文件，从而提高了查询速度。又是Spark一站式生态圈的一员，这样更加优选Spark。Spark Streaming与Storm比较比较内容Spark StreamingStorm实时性属于准实时，由于基于RDD计算，所以是对一个短时间内的数据集，作为一个RDD进行计算来处理属于纯实时，逐条处理计算延迟度亚秒级秒级吞吐量高低事务机制支持不太完善支持好动态调整并行度不支持支持Storm的简易框架数据1Storm流式计算框架数据2数据nStorm的计算模型是基于对每一条记录的流式实时计算框架，如上图所示，这可以算是一种非常纯的实时计算框架。也就是这种基于来一条数据就计算处理，这将会大大的占用资源，从而降低整体的吞吐量。Spark Streaming的简易框架数据1Spark Streaming计算框架RDD批处理（1s）数据2数据n如果设置时间间隔为1秒，也就是会把1秒里面过来的数据收集起来，然后一次性作为一个batch提交给Spark Streaming进行计算处理。这样基于batch的时间段收集数据，所以就不能是纯的实时计算框架了，只能算是一种准实时计算框架，尽管这批量处理对集群资源效率下降了，但是增加了自身的吞吐量。谢谢观看数大义之方，论万物之据。受益终身!