- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Spark 内核
讲师:陈博
RDD是基础
• Resilient Distributed Dataset
• 弹性分布式数据集
• 五大特性:
• A list of par ions
• A function for puting each split
• A list of dependencies on other RDDs
• Optionally, a Par ioner for key-value RDDs
• Optionally, a list of preferred locations to pute each
split on
Spark运行时
流程示意
• 分布式文件系统(File system )--加载数据集
• transformations延迟执行--针对RDD的操作
• Action触发执行
代码示例
• lines = sc.textFile(“hdfs://...”)
• 加载进来成为RDD
• errors = lines.fi r(_.startsWith(“ERROR”))
• Transformation转换
• errors.persist()
• 缓存RDD
• Mysql_errors = errors.fi r(_.con n(“MySQL”)).count
• Action执行
• http_errors = errors.fi r(_.con n(“Http”)).count
• Action执行
缓存策略
转换算子 操作算子
血统
• Lineage
• 每个看做一个RDD
Rdd 容错
• Lineage (血统)
• 利用内存加快数据加载,在众多的其它的In-Memory类数据库或Cache类系统中也有实现,Spark的主要区
别在于它处理分布式运算环境下的数据容错性(节点实效/数据丢失)问题时采用的方案。为了保证RDD
中数据的鲁棒性,RDD数据集通过所谓的血统关系(Lineage)记住了它是如何从其它RDD中演变过来的。
相比其它系统的细颗粒度的内存数据更新级别的备份或者LOG机制,RDD的Lineage记录的是粗颗粒度的
特定数据转换(Transformation )操作(fi r, map, join etc.)行为。当这个RDD的部分分区数据丢失时
,它可以通过Lineage获取足够的 来重新运算和恢复丢失的数据分区。这种粗颗粒的数据模型,限制
了Spark的运用场合,但同时相比细颗粒度的数据模型,也带来了性能的提升。
• RDD在Lineage依赖方面分为两种Narrow Dependencies与Wide Dependencies用来解决数据容错的高
效性。Narrow Dependencies是指父RDD的每一个分区最多被一个子RDD的分区所用,表现为一个父
RDD的分区对应于一个子RDD的分区或多个父RDD的分区对应于一个子RDD的分区,也就是说一个父
RDD的一个分区不可能对应一个子RDD的多个分区。Wide Dependencies是指子RDD的分区依赖于父
RDD的多个分区或所有分区,也就是说存在一个父RDD的一个分区对应一个子RDD的多个分区。对与
Wide Dependencies ,这种计算的输入和输出在不同的节点上,lineage方法对与输入节点完好,而输出
节点宕机时,通过重新计算,这种情况下,这种方法容错是有效的,否则无效,因为无法重试, 向上
其祖先追溯看是否可以重试(这就是lineage ,血统的意思),Narrow Dependencies对于数据的重算开
销要远小于Wide Dependencies的数据重算开销。
• 容错
• 在RDD计算,通过checkpoint进行容错,做checkpoint有两种方式,一个是checkpoint data ,一个是
logging the updates。用户可以 采用哪种方式来实现容错,默认是logging the updates方式,
您可能关注的文档
- 基础班课件第一讲计基.ppt
- 05第五章 汽车车身涂装常用设备.pptx
- 附录9-公用工程供应协议及方案.pdf
- 论坛ppt全球城市版分论坛2 ppt分论坛2陈向民-global cities and local streetssmall business and everyday diversity from new york to shanghai.pptx
- apmcm历年赛题与优秀历年优秀b题2577队b2577.pdf
- 美赛大礼包数学建模美随书光盘poisoning_victim.pdf
- 数学奥林匹克初中训练题89.pdf
- 汽车和汽车零部件行业热管理专题报告穿过南方的艳阳驶过北方的寒夜-20170220-平安.pdf
- 中医临床文献信息分类与代码.docx
- DB44_T+2755-2025中西医优势结合围手术期快速康复指南.docx
- DB44_T+2767-2025河口海湾总氮、总磷水质评价指南.docx
- 中医药科技成果转化评价技术规范.docx
- DB44_T+2750-2025农村供水工程数字化建设技术导则.docx
- DB44_T+2769-2025金属矿山生态修复技术规范.docx
- 镁合金航天航空零部件长效防护微弧氧化膜层工艺规范.docx
- 《甘青青兰中绿原酸和胡麻苷含量的测定 高效液相色谱法》发布稿.pdf
- DB44_T+753-2025声环境质量自动监测技术规范.docx
- 信息技术 智算服务 异构算力虚拟化及池化系统要求.docx
- DB44_T+2759-2025黄荆栽培技术规程.docx
- 废生物制药溶媒再生乙腈.docx
原创力文档


文档评论(0)