非常好spark学习笔记.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
IIIIIIIIJUT spark技术探秘 技术部 Spark是什么 Spark是一个基于内存计算的开源的集群(分布式)计算 系统 令 Spark非常小巧玲珑,由加州伯克利大学AMP实验室的 Matei为主的小团队所开发。使用的语言是Scaa,项目 的core部分的代码只有63个 Scala文件,非常短小精悍。 令由于是基于内存计算,效率要高于拥有 Hadoop,Job中 间输出和结果可以保存在内存中,从而不再需要读写 HDFS,节省了磁盘IO耗时,号称性能比 : Hadoop快100 倍 Spark特性 容错性:在分布式数据集计算时通过 checkpoin来实现 容错,而 checkpoint有两种方式,一个是 checkpoint data,一个是 Logging the updates。用户可以控制采用 哪种方式来实现容错。 今通用性: Spark通过提供丰富的 Scala,Java, Python API及交互式Shel来提高可用性 Spark架构 生态体系 Bag Shark Streaming (Pregel on Spark)(Hive on Spark) Spark Map Reduce RDD 本地 独立 运行模式运行模式EC2 Mesos HDFS Amazon $3, Hypertable, HBase, etc Shark(SQL) 今Shak与hve对比 Example Query Runtime( seconds) Shark 11.1 (RAM) Shark Bagel( Pregel on spark): 令Bage是基于 Spark的轻量级的 Prege( Pregel是 Google 鼎鼎有名的图计算框架)的实现。 Shark( Hive on Spark) Shark是在Spak的框架基础上提供和Hive样的H eQL 五ark可以自动在内存中缓存特定的 RDD,实现数据重用,进而加快特定数据集的检 令hk通过DF实现持定的数据分析算法,使得SQ教据 查询和运算分析能结合在一起,最大化RDD的重复使角 Sparkstreaming 流处理系统,实时计算系统 令枃建在 Spark上处理 Stream数据的框架:基本的原理是 Stream数据分成小的时间片 以类似 batch批量处理的方式来处理这小部分数据。 Spark Streaming构建在 Spark 方面是因为Spak的 迟执行引擎(100ms+)可以 计算,另一方 比基于 Record的其它处理框架(如 Storm),RDD数 集更容易做高效的错处理。此外小批量处理的方式使 可以同时兼容批 些需要历更数据和实时数据联合分 侍是应用场各。 Mlib(machine learning library) 令机器学习库:提供高质量的算法,比 MapReduce快100倍 令高性能 110 U) Hadoop u Spark 0.9 Logistic regression in Hadoop and spark °含的操精第:这时代的垫台数集此也包 Mlib(machine learning library) 令易部署:如果你有一个 hadoop2集群,你可以在没有任 何预装的情况下运行spak和MLib。另外,spak也可以 运行 standalone或EC2或 Mesos。可以读取hdfs hbase或任何一个 hadoop的数据源。

文档评论(0)

189****1620 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档