聊聊另外一个Druid（很全）.docxVIP

下载本文档

4
0
约1.38万字
约 17页
2021-11-16 发布于湖南
举报
版权申诉

聊聊另外一个Druid（很全）.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

聊聊另外一个Druid（很全） 2021-10-28 更多内容关注：fullstack888 1.什么是Druid 说起 Druid，大家首先想到的是阿里的 Druid 数据库连接池，而本文引见的 Druid 是一个在大数据场景下的处理方案，是需要在简单的海量数据下进行交互式实时数据呈现的 BI/OLAP 工具。Druid是一个专为大型数据集上的高功能切片和OLAP分析而设计的数据存储。Druid最常用作为GUI分析应用程序供应动力的数据存储，或者用作需要快速聚合的高度并发API的后端。Druid的常见应用领域包括：点击流分析网络流量分析服务器目标存储应用功能目标数字营销分析商业智能/OLAP 2.druid的次要特点 1.列式存储格式 Druid使用面对列的存储，这意味着它只需要加载特定查询所需的精确列。这为仅查看几列的查询供应了巨大的速度提升。此外，每列都针对其特定数据类型进行了优化，支持快速扫描和聚合。 2.高可用性与高可拓展性 Druid接受分布式、SN(share-nothing)架构，管理类节点可配置HA，工作节点功能单一，不相互依靠，这些特性都使得Druid集群在管理、容错、灾备、扩容等方面变得格外简约。Druid通常部署在数十到数百台服务器的集群中，并且可以供应数百万条记录/秒的摄取率，保留数万亿条记录，以及亚秒级到几秒钟的查询延迟。 3.大规模并行处理 Druid可以在整个集群中并行处理查询。 4.实时或批量摄取实时流数据分析。区分于传统分析型数据库接受的批量导入数据进行分析的方式，Druid供应了实时流数据分析，接受LSM(Long structure-merge)-Tree结构使Druid拥有极高的实时写入功能；同时实现了实时数据在亚秒级内的可视化。 5.自愈，自平衡，易于操作作为运营商，要将群集扩展或缩小，只需添加或删除服务器，群集将在后台自动重新平衡，无需任何停机时间。假如任何Druid服务器发生毛病，系统将自动路由损坏，直到可以更换这些服务器。Druid旨在全天候运转，无需任何缘由方案停机，包括配置更改和软件更新。 6.云原生，容错的架构，不会丢失数据一旦Druid摄取了您的数据，副本就会平安地存储在深层存储（通常是云存储，HDFS或共享文件系统）中。即便每个Druid服务器都消灭毛病，您的数据也可以从深层存储中恢复。对于仅影响少数Druid服务器的更有限的毛病，复制可确保在系统恢复时仍可进行查询。 7.亚秒级的OLAP查询分析 Druid接受了列式存储、倒排索引、位图索引等关键技术，能够在亚秒级别内完成海量数据的过滤、聚合以及多维分析等操作。 8.近似算法 Druid包括用于近似计数 - 不同，近似排序以及近似直方图和分位数的计算的算法。这些算法供应有限的内存使用，并且通常比精确计算快得多。对于精确度比速度更重要的情况，Druid还供应精确计数 - 不同且精确的排名。 9.丰富的数据分析功能针对不同用户群体，Druid供应了友好的可视化界面、类SQL查询言语以及REST 查询接口。 3.为什么会有Druid 大数据时代，如何从海量数据中提取有价值的信息，是一个亟待处理的难题。针对这个问题，IT巨头们已经开发了大量的数据存储与分析类产品，比如IBM Netezza、HP Vertica、EMC GreenPlum等，但是他们大多是昂贵的商业付费类产品，业内使用者寥寥。而受益于近年来高涨的开源精神，业内消灭了众多优秀的开源项目，其中最出名的当属Apache Hadoop生态圈。时至今日，Hadoop已经成为了大数据的“标准”处理方案，但是，人们在享受Hadoop便捷数据分析的同时，也必需要忍耐Hadoop在设计上的很多“痛点”，下面就陈列三方面的问题： 1.何时能进行数据查询？对于Hadoop使用的Map/Reduce批处理框架，数据何时能够查询没有功能保证。 2.随机IO问题。 Map/Reduce批处理框架所处理的数据需要存储在HDFS上，而HDFS是一个以集群硬盘作为存储资源池的分布式文件系统，那么在海量数据的处理过程中，必定会引起大量的读写操作，此时随机IO就成为了高并发场景下的功能瓶颈。 3.数据可视化问题。 HDFS是一个优秀的分布式文件系统，但是对于数据分析以及数据的即席查询，HDFS并不是最优的选择。传统的大数据处理架构Hadoop更倾向于一种“后台批处理的数据仓库系统”，其作为海量历史数据保存、冷数据分析，的确是一个优秀的通用处理方案，但是如何保证高并发环境下海量数据的查询分析功能，以及如何实现海量实时数据的查询分析与可视化，Hadoop的确显得有些无能为力。 4.Druid直面的痛点 Druid的母公司MetaMarket在2021年以前也是H