万亿级节点的pagerank系统实现.pdf

下载文档 降价啦

7
0
约6.47千字
约 19页
2019-02-04 发布于天津
举报
版权申诉
保障服务

万亿级节点的pagerank系统实现.pdf

1、本文档共19页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

万亿级节点的pagerank系统实现

万亿级节点的PageRank 系统实现费马科技李恺威万亿级节点的PageRank系统实现背景 • 网页数目 • 中国：2600亿 • 世界：数万亿 • 搜索引擎 • 归档管理网页数据 • 提供检索功能 • PageRank • 经典网页排名算法 • 重要性排序 • 指导网页抓取万亿级节点的PageRank系统实现 PageRank算法 • 数据构成 • 网页：url地址 • 链接：通过网页中的超链接指向其他网页 • 评分 • 被指向的次数越多 • 被评分高的网页指向 • 计算 • 多轮迭代 • 稀疏矩阵向量乘 (SPMV) 万亿级节点的PageRank系统实现生产环境 • 文件系统：HDFS • 资源调度系统：YARN • 内存计算框架：Spark • 外存计算框架：MapReduce 万亿级节点的PageRank系统实现 HDFS • 高容错文件系统 • NameNode • 元数据管理 • 一致性维护 • DataNode • 存储文件块 • 多备份容错 • 负责内容传输 • Client • 向NameNode索取管理对应文件的DataNode • 与DataNode传输，读写数据万亿级节点的PageRank系统实现 YARN • 资源调度系统 • ResourceMagager • 管理计算资源 • 接受资源请求/回收 • NodeManager • 汇报CPU和内存的分配情况 • 定时发送心跳包万亿级节点的PageRank系统实现更好的方案：图计算框架 • Google Pregel ’2009 • 将网页抽象为图节点 • 将链接抽象为连接两个节点的边 • Pagerank值在节点上的迭代计算 • 沿着边传播pagerank • 其他相关工作 • C++/MPI: Gemini, PowerGraph, … • Spark: GraphX • 优化方向 • 多线程、多机 • 多级存储（缓存、内存、外存） • 放存局部性 • 负载平衡、减少通信万亿级节点的PageRank系统实现挑战：全网PageRank • 网页 • 用Spark • 万亿级(10^12) • 浪费数倍内存空间 • 浮点数存储pagerank值 • 近千台机器 • 空间10TB级 • 用MapReduce • 100+台128GB机器 • 纯磁盘IO，耗时长 • 链接关系 • 反复shuffle ，重复计算 • 十万亿级(10^13) • 用图计算框架 • 2个ur