从阿里产品看海量数据处理系统设计下架构与创新.pdfVIP

下载本文档

2
0
约8.08千字
约 13页
2024-03-17 发布于北京
举报
版权申诉

从阿里产品看海量数据处理系统设计下架构与创新.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

讲堂从0开始学大数据文章详

情

22|从阿里产品看海量数据处理系统的设计（下）：架构与创新

2018-12-18李智慧

22|从阿里产品看海量数据处理系统的设计（下）：架构与创新

朗读人：李智慧10′31′′|9.65M

上一期，Doris提出了目前阿里巴巴海量KV方面的问题，给出了Doris的业务价值、设计

目标和技术指标。但是Doris项目组还必须证明自己有已经经过论证的架构技术方案，可以实现

前面设定的目标，立项后可以迅速启动执行，不需要再去摸索尝试，风险可以把控。

因此，PPT后面的内容主要就是阐述Doris的架构方案和创新设计。

1/13

Doris是一种支持Key、Value数据结构的分布式系统，要解决的问题是分布式路由、

分布式集群伸缩、分布式数据冗余与失效转移。所以Doris把分布式系统很重要的一块，也

就是数据部分转移出去，使用第软件完成，当时选择BerkeleyDB作为Doris的底层

Store，Doris自己专注于分布式技术实现。

Doris的主要模型是，应用程序KV启动后，连接控制Administration，从控制

获得整个Doris集群的服务器部署信息及路由算法，使用Key作为参数进行路由计

算，计算得到集群中某些服务器作为当前Key、Value数据的服务器节点；然后KV

使用自定义的通信协议将数据和命令传输给服务器上的DataServer组件，DataServer再调用

本地的BerkeleyDB将数据到本地磁盘。

Doris的技术就是这个架构模型上创新性地实现了自己独特的分区路由算法、失效转移策

略集群伸缩设计方案。并在项目开发过程中，将这个三个技术创新申请了技术专利。下面我们

、

重点看下这三个技术创新。

分区路由算法

2/13

Doris采用一种基于虚拟节点的分区路由算法，Key使用余数Hash算法计算得到虚拟节点下

标

。

代码

1虚拟节点下标=hash(md5(key))mod虚拟节点个数

虚拟节点和物理服务器节点之间计算建立一个映射关系，通过映射关系查找实际要的物理服

务器IP地址。

路由算法在初始化的时候就预先设立一个较大的数字，比如100000，当服务器集群需要伸

缩的时候，要增加一个服务器，虚拟节点和下标计算算法不变，仅仅调整虚拟节点和物理服务器

节点的映射关系就可以了，如PPT中图2所示。

这种基于虚拟节点的分区路由算法相对于传统的一致性Hash路由算法，可以获得更好的数据负

载均衡，即数据在各个服务器上的分布更加均衡。在集群伸缩、增加服务器的时候可以做到

更少迁移数据。在实践中，这种算法的一个更大优势是，如果将物理的文件系统和虚拟节点

关联，即一个虚拟节点对应一个物理文件，那么当集群扩容，进行数据迁移的时候，就可以

以文件为单位进行数据拷贝，这样迁移速度和运维成本都非常低。

这个基于虚拟节点的分区路由算法的关键难点是，如何计算虚拟节点与物理节点的映射关系，特

别是在增加服务器的时候，如何重新计算这个映射关系，使新的映射关系依然处于负载均衡的状

您可能关注的文档

文档评论（0）

136****1820 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

从阿里产品看海量数据处理系统设计下架构与创新.pdfVIP