第5讲Spark_88703337案例.ppt

下载文档 降价啦

50
0
约3.29万字
约 166页
2017-01-12 发布于湖北
举报
版权申诉
保障服务

第5讲Spark_88703337案例.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Separate Systems Tables Graphs Separate Systems Graphs Dataflow Systems Table Result Row Row Row Row Separate Systems Dataflow Systems Graph Systems Dependency Graph Table Result Row Row Row Row Graphx 对Graph视图的所有操作，最终都会转换成其关联的Table视图的RDD操作来完成。逻辑上，所有图的转换和操作都产生了一个新图；物理上，GraphX会有一定程度的不变顶点和边的复用优化，对用户透明。两种视图底层共用的物理数据，由RDD[Vertex-Partition]和RDD[EdgePartition]这两个RDD组成。点和边实际都不是以表Collection[tuple]的形式存储的，而是由VertexPartition/EdgePartition在内部存储一个带索引结构的分片数据块，以加速不同视图下的遍历速度。不变的索引结构在RDD转换过程中是共用的，降低了计算和存储开销。图的分布式存储采用点分割模式，而且使用partitionBy方法，由用户指定不同的划分策略。划分策略会将边分配到各个EdgePartition，顶点Master分配到各个VertexPartition，EdgePartition也会缓存本地边关联点的Ghost副本。划分策略的不同会影响到所需要缓存的Ghost副本数量，以及每个EdgePartition分配的边的均衡程度，需要根据图的结构特征选取最佳策略。模型丰富的图运算符丰富的图运算符三个核心的RDD Vertices Edges Triplets 3个特性不变性——Immutable 分布性——Distributed 容错性——Fault-Tolerant 点分割 Part. 2 Part. 1 Vertex Table (RDD) B C A D F E A D Encoding Property Graphs as Tables D Property Graph B C D E A A F Machine 1 Machine 2 Edge Table (RDD) A B A C C D B C A E A F E F E D B C D E A F Routing Table (RDD) B C D E A F 1 2 1 2 1 2 1 2 Vertex Cut Triplets Join Vertices and Edges The triplets operator joins vertices and edges: Triplets Vertices B A C D Edges A B A C B C C D A B A B A C B C C D Map-Reduce Triplets Map-Reduce triplets collects information about the neighborhood of each vertex: C D A C B C A B Src. or Dst. MapFunction( ) ? (B, ) MapFunction( ) ? (C, ) MapFunction( ) ? (C, ) MapFunction( ) ? (D, ) Reduce (B, ) (C, + ) (D, ) Message Combiners * All lazy * Launch computations * URL of GitHub * Shark主要是将Hive的mr计算转移到Spark上。但存在两个问题： 1、mr是进程安全，为沿用优化等内容，spark需要开发和维护一个线程安全的Hive分支 2、优化完全依赖Hive的优化功能，Hive是不会考虑到Spark的优化 * Shark是采用hql来处理HDFS数据，后台隐含采用Spark+RDDs处理 Spark SQL是采用SQL+SchemaRDDs，直接读取文件，在SQL中进行处理，可以直接操作RDD中的某个行、列的数据。 * * Modern analytics involves many stages and many views of data. Make animation auto + practice shortened versions of second and third path Build