Dragonfly 基于 P2P 的文件和镜像分发系统.docVIP

  • 5
  • 0
  • 约4.15千字
  • 约 8页
  • 2022-11-15 发布于江苏
  • 举报

Dragonfly 基于 P2P 的文件和镜像分发系统.doc

Dragonfly 基于 P2P 的文件和镜像分发系统 背 景 网络下载 提起网络下载领域,你应该首先会想到基于 TCP/IP 协议簇的 C/S 模式。这种模式希望每一个客户机都与服务器建立 TCP 连接,服务器轮询监听 TCP 连接并依次响应,如下图: 上世纪末期,基于 C/S 模式的思想,人们发展了 HTTP, FTP 等应用层协议。然而 C/S 模式的弊端很明显:服务器的负载过大,下载速率过慢。随着互联网规模的增大以及客户对于下载数据大小,下载速率等需求的上升,这些弊端被不断放大。 P2P 下载原理 基于上述背景,有人结合 P2P 网络与负载均衡的思想,提出 P2P 下载模式。这种模式不再把所有的下载压力丢给服务器,服务器只负责传递文件元数据,真正的文件下载连接建立在客户机与客户机之间。同时一个文件可以被分片为多个块,同一个文件中不同的块可以在不同的客户机之上下载,使得下载文件在 P2P 网络中动态流通,大幅提升了下载效率,如下图: 去中心化的 P2P 下载基于 DHT 技术,它采用分布式全网方式来进行信息的存储和检索。所有信息均以哈希表条目形式加以存储,这些条目被分散地存储在各个节点上,从而以全网方式构成一张巨大的分布式哈希表。在此基础上做到对单服务器的去中心化,哈希表负责对负载的分摊,将全网负载均摊到多个机器之上。 项目简介及架构概述 Dragonfly 是一款基于 P2P 的智能镜像和文件分发工具。它旨在提高大规模文件传输的效率和速率,最大限度地利用网络带宽。在应用分发、缓存分发、日志分发和镜像分发等领域被大规模使用。 原理 Dragonfly 结合 C/S 架构与 P2P 架构的优点。它提供面向客户的 C/S 架构下载模式。同时它也提供面向服务器集群的 P2P 回源模式,与传统 P2P 不同的是,对等网络建立在 Scheduler 内部,目标是最大化 P2P 内部下载效率,如下图: 架构简介 Dragonfly 面向镜像分发和文件分发,结合 P2P 网络和服务器集群的思想,向用户提供稳定的,高效的下载服务。Dragonfly 希望在服务器内部构建 P2P 网络,将服务器的不同主机节点分为 Manager、Scheduler、Seed Peer 以及 Peer 四个角色,分别提供不同的功能。 其中 Manager 提供总体配置功能,拉取其他角色的配置并相互通信。Scheduler 提供下载调度功能,其调度结果直接影响下载速率。Seed Peer 负责回源下载,从外部网络中拉取所需的镜像或文件。Peer 作为 C/S 架构中的服务器,通过多种协议向客户提供下载功能。架构图如下: 其中,Seed Peer 支持使用多种协议从外部网络中回源下载,同时也支持当作集群当中一个 Peer 使用。Peer 提供基于多种协议的下载服务,也提供为镜像仓库或其他下载任务的代理服务。 组件详解 Manager Manager 在多 P2P 集群部署的时候扮演管理者的角色,提供前端控制台方便用户进行可视化操作 P2P 集群。其主要提供动态配置管理、维护集群稳定性以及维护多套 P2P 集群的关联关系等功能。对于维护集群整体稳定性 Manager 和各个服务保持 Keepalive 保证能够在实例异常情况下将异常实例进行剔除。动态配置管理可以在 Manager 上面操作各个组件的控制单元,比如控制 Peer 和 Seed Peer 的负载数,Scheduler 调度 Parent 的个数等。 Manager 也可以维护多套 P2P 集群关联关系,一个 Scheduler Cluster、一个 Seed Peer Cluster 和若干个 Peer 组成一个完整的 P2P 集群,当然不同 P2P 集群可以是网络隔离的。正常情况下采用一个机房一套 P2P 集群,统一由一个 Manager 管理多个 P2P 集群。 Scheduler Scheduler 主要工作就是为当前下载节点寻找最优父节点并触发 Seed Peer 进行回源下载。在适当时候让 Peer 进行回源下载。Scheduler 在启动时,先向 Manager 注册,注册成功后初始化动态配置客户端,并从 Manager 拉取动态配置,接下来启动 Scheduler 自身所需的服务。 Scheduler 的核心就是选取一组最优 Parent 节点供当前下载 Peer 进行下载。Scheduler 面向 Task,一次 Task 就是一次完整的下载任务,在 Scheduler 中存储 Task 信息和相应 P2P 下载网络的 DAG。调度过程是首先过滤异常 Parent 节点,根据多维度进行过滤,比如判断该 Peer 是否是 BadNode,判断逻辑为假设每个节点的响应时长都遵循正态分布,

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档