spark技术探秘 技术部 Spark是什么 Spark是一个基于内存计算的开源的集群(分布式)计算系统 Spark非常小巧玲珑,由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala,项目的core部分的代码只有63个Scala文件,非常短小精悍。 由于是基于内存计算,效率要高于拥有Hadoop,Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,节省了磁盘IO耗时,号称性能比Hadoop快100倍。 Spark特性 容错性:在分布式数据集计算时通过checkpoint来实现容错,而checkpoint有两种方式,一个是checkpoint data,一个是logging the updates。用户可以控制采用哪种方式来实现容错。 通用性:Spark通过提供丰富的Scala, Java,Python API及交互式Shell来提高可用性。 Spark架构 生态体系 Shark(SQL) shark与hive对比 Bagel(Pregel on spark): Bagel是基于Spark的轻量级的Pregel(Pregel是Google鼎鼎有名的图计算框架)的实现。 Shark ( Hive on Spark) Shark是在Spark的框架基础上提供和Hive一样的H iveQL命令接口,Shark可以自动在内存中缓存特定的RD
您可能关注的文档
- 非ST抬高急性冠脉综合征患者治疗指南方案.ppt
- 静脉输液试讲方案.ppt
- 非常青春——青春期性健康教育课件下载方案.ppt
- 某麻纺厂员工福利待遇规范.docx
- 某服装厂质量控制规范.docx
- 低压电工资格证考试题库.pdf
- 普通话水平测试样卷.pdf
- 护理教学比赛活动设计.pptx
- 高级经济师考试财政税收知识点三色笔记.pdf
- 护理教学比赛组织与实施.pptx
- 2025年下半年小学教师资格考试简答题汇总.pdf
- 护理教学比赛资源整合.pptx
- 2022泰和安消防 JTGB-HM-TX3H01 JTGB-HM-TX3H02 TGB-HM-TX3H03 系列点型红外火焰探测器.docx
- 2025年驾驶证资格考试最新最全交通标志大全.pdf
- 护理教学理念:更新与发展.pptx
- 2025年新驾考科目一巧记速记口诀(全国通用).pdf
- 2025年一级建造师《项目管理》黄金预测考点【打印版】.pdf
- 证券公司高级管理人员资质测试章节练习-第一部分综合类第六章至七章:证券投资基金法、信托法.pdf
- 护理教学研究:方法与成果.pptx
- 麻纺车间设备更新准则.docx
原创力文档

文档评论(0)