PAGE \* MERGEFORMAT 1
STYLEREF 标题 \* MERGEFORMAT Error! No text of specified style in document.
PAGE \* MERGEFORMAT 37
PAGE \* MERGEFORMAT 36
Graphx
参考: HYPERLINK /art/201408/450049.htm /art/201408/450049.htm Spark+GraphX大规模图计算和图挖掘(V3.0)
本章旨在介绍图计算、Spark GraphX和梳理GraphX学习时的关键知识结构。
分布式计算
分布式图计算框架的目的
将对于巨型图的各种操作包装为简单的接口,让分布式存储、并行计算等复杂问题对上层透明,从而使复杂网络和图算法的工程师,更加聚焦在图相关的模型设计和使用上,而不用关心底层的分布式细节。
需要解决两个通用问题:图存储模式和图计算模式。
图存储模式
巨型图的存储总体上有边分割和点分割两种存储方式。2013年,GraphLab2.0将其存储方式由边分割变??点分割,在性能上取得重大提升,目前基本上被业界广泛接受并使用。
边分割
每个顶点都存储一次,但有的边会被打断分到两台机器上。这样做的好处是节省存储空间;坏处是对图进行基于边的计算时,对于一条两个顶点被
原创力文档

文档评论(0)