- 1、本文档共19页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
万亿级节点的pagerank系统实现
万亿级节点的PageRank
系统实现
费马科技 李恺威
万亿级节点的PageRank系统实现
背景
• 网页数目
• 中国:2600亿
• 世界:数万亿
• 搜索引擎
• 归档管理网页数据
• 提供检索功能
• PageRank
• 经典网页排名算法
• 重要性排序
• 指导网页抓取
万亿级节点的PageRank系统实现
PageRank算法
• 数据构成
• 网页:url地址
• 链接:通过网页中的
超链接指向其他网页
• 评分
• 被指向的次数越多
• 被评分高的网页指向
• 计算
• 多轮迭代
• 稀疏矩阵向量乘
(SPMV)
万亿级节点的PageRank系统实现
生产环境
• 文件系统:HDFS
• 资源调度系统:YARN
• 内存计算框架:Spark
• 外存计算框架:MapReduce
万亿级节点的PageRank系统实现
HDFS
• 高容错文件系统
• NameNode
• 元数据管理
• 一致性维护
• DataNode
• 存储文件块
• 多备份容错
• 负责内容传输
• Client
• 向NameNode索取管理
对应文件的DataNode
• 与DataNode传输,读写
数据
万亿级节点的PageRank系统实现
YARN
• 资源调度系统
• ResourceMagager
• 管理计算资源
• 接受资源请求/回收
• NodeManager
• 汇报CPU和内存的分
配情况
• 定时发送心跳包
万亿级节点的PageRank系统实现
更好的方案:图计算框架
• Google Pregel ’2009
• 将网页抽象为图节点
• 将链接抽象为连接两个节点的边
• Pagerank值在节点上的迭代计算
• 沿着边传播pagerank
• 其他相关工作
• C++/MPI: Gemini,
PowerGraph, …
• Spark: GraphX
• 优化方向
• 多线程、多机
• 多级存储(缓存、内存、外存)
• 放存局部性
• 负载平衡、减少通信
万亿级节点的PageRank系统实现
挑战:全网PageRank
• 网页 • 用Spark
• 万亿级(10^12) • 浪费数倍内存空间
• 浮点数存储pagerank值 • 近千台机器
• 空间10TB级 • 用MapReduce
• 100+台128GB机器 • 纯磁盘IO,耗时长
• 链接关系 • 反复shuffle ,重复计算
• 十万亿级(10^13) • 用图计算框架
• 2个ur
您可能关注的文档
- 12月321日山东半岛持续性暴雪特征及维持机制.pdf
- 2017年供应商手册.pdf
- 11月丁苯橡胶产业链情报.pdf
- 12月湖北环境空气质量月报.pdf
- 2018不锈钢.pdf
- T型搅拌器数值模拟研究.pdf
- XAP系列母线槽存放安装及维护.pdf
- WEH快速接头的解决方案.pdf
- 5月工研院TIMES模型团队.pdf
- 一种填方路堤反压护道断面设计的解析方法研究.pdf
- DB44_T 2611-2025 城市排水管网有毒有害气体监测与风险分级管理技术标准.pdf
- DB44_T 2612-2025 竞赛类科普活动策划与实施服务规范.pdf
- DB43_T 2947-2024 烟草种子质量控制规程.pdf
- DB37_T 4836-2025 煤矿风量实时监测技术要求.pdf
- 叉车防撞系统,全球前22强生产商排名及市场份额(by QYResearch).docx
- 超滤膜,全球前18强生产商排名及市场份额(by QYResearch).docx
- DB62T 4172-2020 玉米品种 酒623规范.pdf
- DB62T 4160-2020 在用真空绝热深冷压力容器综合性能在线检测方法.pdf
- DB62T 4164-2020 辣椒品种 酒椒1号.pdf
- DB62T 4133-2020 公路隧道地质超前预报机械能无损探测技术规程.pdf
文档评论(0)