21030507大数据hadoop storm hive等系列教程下午spark内核.pdfVIP

下载本文档

3
0
约5.37千字
约 36页
2021-03-23 发布于北京
举报
版权申诉

21030507大数据hadoop storm hive等系列教程下午spark内核.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Spark 内核讲师：陈博 RDD是基础 • Resilient Distributed Dataset • 弹性分布式数据集 • 五大特性： • A list of par ions • A function for puting each split • A list of dependencies on other RDDs • Optionally, a Par ioner for key-value RDDs • Optionally, a list of preferred locations to pute each split on Spark运行时流程示意 • 分布式文件系统（File system ）--加载数据集 • transformations延迟执行--针对RDD的操作 • Action触发执行代码示例 • lines = sc.textFile(“hdfs://...”) • 加载进来成为RDD • errors = lines.fi r(_.startsWith(“ERROR”)) • Transformation转换 • errors.persist() • 缓存RDD • Mysql_errors = errors.fi r(_.con n(“MySQL”)).count • Action执行 • http_errors = errors.fi r(_.con n(“Http”)).count • Action执行缓存策略转换算子操作算子血统 • Lineage • 每个看做一个RDD Rdd 容错 • Lineage （血统） • 利用内存加快数据加载,在众多的其它的In-Memory类数据库或Cache类系统中也有实现，Spark的主要区别在于它处理分布式运算环境下的数据容错性（节点实效/数据丢失）问题时采用的方案。为了保证RDD 中数据的鲁棒性，RDD数据集通过所谓的血统关系(Lineage)记住了它是如何从其它RDD中演变过来的。相比其它系统的细颗粒度的内存数据更新级别的备份或者LOG机制，RDD的Lineage记录的是粗颗粒度的特定数据转换（Transformation ）操作（fi r, map, join etc.)行为。当这个RDD的部分分区数据丢失时，它可以通过Lineage获取足够的来重新运算和恢复丢失的数据分区。这种粗颗粒的数据模型，限制了Spark的运用场合，但同时相比细颗粒度的数据模型，也带来了性能的提升。 • RDD在Lineage依赖方面分为两种Narrow Dependencies与Wide Dependencies用来解决数据容错的高效性。Narrow Dependencies是指父RDD的每一个分区最多被一个子RDD的分区所用，表现为一个父 RDD的分区对应于一个子RDD的分区或多个父RDD的分区对应于一个子RDD的分区，也就是说一个父 RDD的一个分区不可能对应一个子RDD的多个分区。Wide Dependencies是指子RDD的分区依赖于父 RDD的多个分区或所有分区，也就是说存在一个父RDD的一个分区对应一个子RDD的多个分区。对与 Wide Dependencies ，这种计算的输入和输出在不同的节点上，lineage方法对与输入节点完好，而输出节点宕机时，通过重新计算，这种情况下，这种方法容错是有效的，否则无效，因为无法重试，向上其祖先追溯看是否可以重试（这就是lineage ，血统的意思），Narrow Dependencies对于数据的重算开销要远小于Wide Dependencies的数据重算开销。 • 容错 • 在RDD计算，通过checkpoint进行容错，做checkpoint有两种方式，一个是checkpoint data ，一个是 logging the updates。用户可以采用哪种方式来实现容错，默认是logging the updates方式，