大数据技术原理与应用第十二章图计算案例.ppt

大数据技术原理与应用第十二章图计算案例.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
9.4 Pregel的C++ API 9.4.1 消息传递机制 9.4.2 Combiner 9.4.3 Aggregator 9.4.4 拓扑改变 9.4.5 输入和输出 9.4.1 消息传递机制 顶点之间的通讯是借助于消息传递机制来实现的,每条消息都包含了消息值和需要到达的目标顶点ID。用户可以通过Vertex类的模板参数来设定消息值的数据类型 在一个超步S中,一个顶点可以发送任意数量的消息,这些消息将在下一个超步(S+1)中被其他顶点接收 一个顶点V通过与之关联的出射边向外发送消息,并且,消息要到达的目标顶点并不一定是与顶点V相邻的顶点,一个消息可以连续经过多条连通的边到达某个与顶点V不相邻的顶点U,U可以从接收的消息中获取到与其不相邻的顶点V的ID 9.4.2 Combiner Pregel计算框架在消息发出去之前,Combiner可以将发往同一个顶点的多个整型值进行求和得到一个值,只需向外发送这个“求和结果”,从而实现了由多个消息合并成一个消息,大大减少了传输和缓存的开销 在默认情况下,Pregel计算框架并不会开启Combiner功能 当用户打算开启Combiner功能时,可以继承Combiner类并覆写虚函数Combine() 此外,通常只对那些满足交换律和结合律的操作才可以去开启Combiner功能 图9-5 Combiner应用的例子 9.4.3 Aggregator Aggregator提供了一种全局通信、监控和数据查看的机制 在一个超步S中,每一个顶点都可以向一个Aggregator提供一个数据,Pregel计算框架会对这些值进行聚合操作产生一个值,在下一个超步(S+1)中,图中的所有顶点都可以看见这个值 Aggregator的聚合功能,允许在整型和字符串类型上执行最大值、最小值、求和操作,比如,可以定义一个“Sum”Aggregator来统计每个顶点的出射边数量,最后相加可以得到整个图的边的数量 Aggregator还可以实现全局协同的功能,比如,可以设计“and” Aggregator来决定在某个超步中Compute()函数是否执行某些逻辑分支,只有当“and” Aggregator显示所有顶点都满足了某条件时,才去执行这些逻辑分支 9.4.4 拓扑改变 Pregel计算框架允许用户在自定义函数Compute()中定义操作,修改图的拓扑结构,比如在图中增加(或删除)边或顶点 对于全局拓扑改变,Pregel采用了惰性协调机制 对于本地的局部拓扑改变,是不会引发冲突的,顶点或边的本地增减能够立即生效,很大程度上简化了分布式编程 9.4.5 输入和输出 在Pregel计算框架中,图的保存格式多种多样,包括文本文件、关系数据库或键值数据库等 在Pregel中,“从输入文件生成得到图结构”和“执行图计算”这两个过程是分离的,从而不会限制输入文件的格式 对于输出,Pregel也采用了灵活的方式,可以以多种方式进行输出 9.5 Pregel的体系结构 9.5.1 Pregel的执行过程 9.5.2 容错性 9.5.3 Worker 9.5.4 Master 9.5.5 Aggregator 9.5.1 Pregel的执行过程 图9-6图的划分图 在Pregel计算框架中,一个大型图会被划分成许多个分区,每个分区都包含了一部分顶点以及以其为起点的边 一个顶点应该被分配到哪个分区上,是由一个函数决定的,系统默认函数为hash(ID) mod N,其中,N为所有分区总数,ID是这个顶点的标识符;当然,用户也可以自己定义这个函数 这样,无论在哪台机器上,都可以简单根据顶点ID判断出该顶点属于哪个分区,即使该顶点可能已经不存在了 9.5.1 Pregel的执行过程 图9-7 Pregel的执行过程图 在理想的情况下(不发生任何错误),一个Pregel用户程序的执行过程如下: (1)选择集群中的多台机器执行图计算任务,有一台机器会被选为Master,其他机器作为Worker (2)Master把一个图分成多个分区,并把分区分配到多个Worker。一个Worker会领到一个或多个分区,每个Worker知道所有其他Worker所分配到的分区情况 9.5.1 Pregel的执行过程 图9-7 Pregel的执行过程图 (3)Master会把用户输入划分成多个部分。然后,Master会为每个Worker分配用户输入的一部分。如果一个Worker从输入内容中加载到的顶点,刚好是自己所分配到的分区中的顶点,就会立即更新相应的数据结构。否则,该Worker会根据加载到的顶点的ID,把它发送到其所属的分区所在的Worker上。当所有的输入都被加载后,图中的所有顶点都会被标记为“活跃”状态。 9.5.1 Pregel的

文档评论(0)

502992 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档