spark技术探秘 技术部 Spark是什么 Spark是一个基于内存计算的开源的集群(分布式)计算系统 Spark非常小巧玲珑,由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala,项目的core部分的代码只有63个Scala文件,非常短小精悍。 由于是基于内存计算,效率要高于拥有Hadoop,Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,节省了磁盘IO耗时,号称性能比Hadoop快100倍。 Spark特性 容错性:在分布式数据集计算时通过checkpoint来实现容错,而checkpoint有两种方式,一个是checkpoint data,一个是logging the updates。用户可以控制采用哪种方式来实现容错。 通用性:Spark通过提供丰富的Scala, Java,Python API及交互式Shell来提高可用性。 Spark架构 生态体系 Shark(SQL) shark与hive对比 Bagel(Pregel on spark): Bagel是基于Spark的轻量级的Pregel(Pregel是Google鼎鼎有名的图计算框架)的实现。 Shark ( Hive on Spark) Shark是在Spark的框架基础上提供和Hive一样的H iveQL命令接口,Shark可以自动在内存中缓存特定的RD
您可能关注的文档
- 5捅马蜂窝技巧.ppt
- SMT贴装注意事项材料.ppt
- 5偷瓜MicrosoftPowerPoint技巧.ppt
- SNS网络推广材料.ppt
- SNTA1003低压动态滤波补偿装置材料.ppt
- 5我的童年技巧.ppt
- 5我是中国娃技巧.ppt
- soapui基础材料.ppt
- soc工艺ch9光刻工艺材料.ppt
- 5-无铅焊接的特点及工艺控制技巧.ppt
- 专项十三 复合句(含答案) 2026年中考人教版英语语法专项复习.doc.docx
- 专项十四 There be句型和主谓一致(含答案) 2026年中考人教版英语语法专项复习.doc.docx
- 专项14 构词法 学案(含答案)2025年中考人教版英语语法专项复习.doc.docx
- 静脉肾盂造影结石梗阻评估.ppt
- 《假期实践活动》教案-2025-2026学年冀教版(新教材)小学数学二年级下册.docx
- 老年结石病合并慢病综合诊疗.ppt
- 鹿角形肾结石复杂手术治疗.ppt
- 经皮肾镜超声碎石清石术.ppt
- 《参观爱国主义教育基地》教案-2025-2026学年冀教版(新教材)小学数学二年级下册.docx
- 《生活中的大数:整理与复习》教案(2课时)-2025-2026学年冀教版(新教材)小学数学二年级下册.docx
最近下载
- 2025年广东省信宜市高三(二模)语文试题试卷含解析.doc VIP
- “十五五”时期财税政策赋能人工智能产业高质量发展的路径探索.docx
- 广东实验中学2024-2025学年高一下学期期中考试化学.docx VIP
- 2026年广东省江门市高三语文二模试卷及答案(含作文解析与范文).docx VIP
- 年产130万平米仿古砖天然气辊道窑毕业设计.doc
- 老年人需求调查问卷模板.docx
- 倍福NCI插补和坐标系变换技术V1.0.3 .pdf VIP
- (完整word版)专八词汇表.doc VIP
- 幼儿园教师心理健康培训.pptx VIP
- 广东实验中学2024-2025学年下期中考试生物学.pdf VIP
原创力文档

文档评论(0)