- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
IIIIIIIIJUT
spark技术探秘
技术部
Spark是什么
Spark是一个基于内存计算的开源的集群(分布式)计算
系统
令 Spark非常小巧玲珑,由加州伯克利大学AMP实验室的
Matei为主的小团队所开发。使用的语言是Scaa,项目
的core部分的代码只有63个 Scala文件,非常短小精悍。
令由于是基于内存计算,效率要高于拥有 Hadoop,Job中
间输出和结果可以保存在内存中,从而不再需要读写
HDFS,节省了磁盘IO耗时,号称性能比 : Hadoop快100
倍
Spark特性
容错性:在分布式数据集计算时通过 checkpoin来实现
容错,而 checkpoint有两种方式,一个是 checkpoint
data,一个是 Logging the updates。用户可以控制采用
哪种方式来实现容错。
今通用性: Spark通过提供丰富的 Scala,Java, Python
API及交互式Shel来提高可用性
Spark架构
生态体系
Bag
Shark
Streaming
(Pregel on Spark)(Hive on Spark)
Spark
Map Reduce
RDD
本地
独立
运行模式运行模式EC2
Mesos
HDFS Amazon $3, Hypertable, HBase, etc
Shark(SQL)
今Shak与hve对比
Example Query Runtime( seconds)
Shark 11.1
(RAM)
Shark
Bagel( Pregel on spark):
令Bage是基于 Spark的轻量级的 Prege( Pregel是 Google
鼎鼎有名的图计算框架)的实现。
Shark( Hive on Spark)
Shark是在Spak的框架基础上提供和Hive样的H
eQL
五ark可以自动在内存中缓存特定的
RDD,实现数据重用,进而加快特定数据集的检
令hk通过DF实现持定的数据分析算法,使得SQ教据
查询和运算分析能结合在一起,最大化RDD的重复使角
Sparkstreaming
流处理系统,实时计算系统
令枃建在 Spark上处理 Stream数据的框架:基本的原理是
Stream数据分成小的时间片
以类似
batch批量处理的方式来处理这小部分数据。 Spark
Streaming构建在 Spark
方面是因为Spak的
迟执行引擎(100ms+)可以
计算,另一方
比基于 Record的其它处理框架(如 Storm),RDD数
集更容易做高效的错处理。此外小批量处理的方式使
可以同时兼容批
些需要历更数据和实时数据联合分
侍是应用场各。
Mlib(machine learning library)
令机器学习库:提供高质量的算法,比 MapReduce快100倍
令高性能
110
U)
Hadoop
u Spark
0.9
Logistic regression in Hadoop and spark
°含的操精第:这时代的垫台数集此也包
Mlib(machine learning library)
令易部署:如果你有一个 hadoop2集群,你可以在没有任
何预装的情况下运行spak和MLib。另外,spak也可以
运行 standalone或EC2或 Mesos。可以读取hdfs
hbase或任何一个 hadoop的数据源。
您可能关注的文档
最近下载
- 涉农专业班级建设方案(班主任能力比赛).pdf VIP
- 人教(2019)A版最新教材高中数学课后习题答案大全.pdf VIP
- colorgate v8快速操作手册中文.pdf VIP
- 第5课 共同保卫伟大祖国 课件中华民族大团结.ppt VIP
- 部编版四年级上册语文第一单元大单元教学设计.docx VIP
- 给水排水工程顶管技术规程CECS_246:2008.pdf VIP
- 2024年信息科技中考考试题库及答案3.pdf VIP
- 《土木工程施工48课时》课程教学大纲.doc VIP
- Unit 3 My week第2课时 Story time(教学课件)英语译林版三起四年级上册(新教材).ppt
- 01企税 答案 V3.8企业所得税年度(A类)网上申报教学版案例01-20211008.xlsx VIP
文档评论(0)