- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
软件开发技术
第三章:软件开发平台与工具
2018年10月28日星期日
补充
大数据现在是业内炙手可热的话题,随着技术的发展,大数据存储技
术已经不在是难点,但是对大数据如何做好存储后的下一步处理将是
未来竞争的焦
前比较受欢迎的 Storn, Spark,Hado。p三个大
数据处理工具都是JVM上的语言写成的
Spark由Scaa写成,是 UC Berkeley AMP lab所开源的类 Hadoop
MapReduce的通用的并行计算框架, Spark基于 map reduce算法实
现的分布式计算,拥有 Hadoop MapReduce所具有的优点。
Storm由java和 clojure写成, storn的优点是全内存计算,因为内存
寻址速度是硬盘的百万倍以上,所以 storm的速度相比较 hadoop非
常快
hadoop是实现了 mapreduce的思想,将数据切片计算来处理大量的
离线数据数据。 hadoop处理的数据必须是已经存放在hds上或者类
似 hbase的数据库中,所以 hadoop实现的时候是通过移动计算到这
些存放数据的机器上来提高效率
Spark
Soc
Uphtnang-tast Custer Computin
Spark是发源于美国加州大学伯克利分校
AMPLab的集群计算平台。它立足于内存计算,
从多迭代批量处理出发,兼收并蓄数据仓库、流
处理和图计算等多种计算范式,是罕见的全能选
手
spak已正式申请加入 Apache孵化器,从灵机
闪的实验室“电火花”成长为大数据技术平台中
异军突起的新锐。本文主要讲述 Spark的设计思
想。 Spark如其名,展现了大数据不常见的“电
光石火”。具体特点概括为“轻、快、灵和巧”
Spark
Spark首先是一种粗粒度数据并行( data parallel
)的计算范式。数据并行的范式决定了 Spark无
法完美支持细粒度、异步更新的操作。
Spark的计算抽象是数据流,而且是带有工作集
( working set)的数据流
Spark的突破在于,在保证容错的前提下,用内
存来承载工作集
Spark
Spark是 UC Berkeley AMP lab所开源的类
Hadoop MapReduce的通用的并行计算框架
Spark基于 map reduce算法实现的分布式计算
拥有 Hadoop MapReduce所具有的优点;但不同
于 MapReduce的是Job中间输出结果可以保存在
内存中,从而不再需要读写HDFS,因此 Spark能
更好地适用于数据挖掘与机器学习等需要迭代的
map reduce的算法
原创力文档


文档评论(0)