聊聊另外一个Druid(很全).docxVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聊聊另外一个Druid(很全) 2021-10-28 更多内容关注:fullstack888 1.什么是Druid 说起 Druid,大家首先想到的是阿里的 Druid 数据库连接池,而本文引见的 Druid 是一个在大数据场景下的处理方案,是需要在简单的海量数据下进行交互式实时数据呈现的 BI/OLAP 工具。Druid是一个专为大型数据集上的高功能切片和OLAP分析而设计的数据存储。Druid最常用作为GUI分析应用程序供应动力的数据存储,或者用作需要快速聚合的高度并发API的后端。Druid的常见应用领域包括: 点击流分析 网络流量分析 服务器目标存储 应用功能目标 数字营销分析 商业智能/OLAP 2.druid的次要特点 1.列式存储格式 Druid使用面对列的存储,这意味着它只需要加载特定查询所需的精确列。这为仅查看几列的查询供应了巨大的速度提升。此外,每列都针对其特定数据类型进行了优化,支持快速扫描和聚合。 2.高可用性与高可拓展性 Druid接受分布式、SN(share-nothing)架构,管理类节点可配置HA,工作节点功能单一,不相互依靠,这些特性都使得Druid集群在管理、容错、灾备、扩容等方面变得格外简约。Druid通常部署在数十到数百台服务器的集群中,并且可以供应数百万条记录/秒的摄取率,保留数万亿条记录,以及亚秒级到几秒钟的查询延迟。 3.大规模并行处理 Druid可以在整个集群中并行处理查询。 4.实时或批量摄取 实时流数据分析。区分于传统分析型数据库接受的批量导入数据进行分析的方式,Druid供应了实时流数据分析,接受LSM(Long structure-merge)-Tree结构使Druid拥有极高的实时写入功能;同时实现了实时数据在亚秒级内的可视化。 5.自愈,自平衡,易于操作 作为运营商,要将群集扩展或缩小,只需添加或删除服务器,群集将在后台自动重新平衡,无需任何停机时间。假如任何Druid服务器发生毛病,系统将自动路由损坏,直到可以更换这些服务器。Druid旨在全天候运转,无需任何缘由方案停机,包括配置更改和软件更新。 6.云原生,容错的架构,不会丢失数据 一旦Druid摄取了您的数据,副本就会平安地存储在深层存储(通常是云存储,HDFS或共享文件系统)中。即便每个Druid服务器都消灭毛病,您的数据也可以从深层存储中恢复。对于仅影响少数Druid服务器的更有限的毛病,复制可确保在系统恢复时仍可进行查询。 7.亚秒级的OLAP查询分析 Druid接受了列式存储、倒排索引、位图索引等关键技术,能够在亚秒级别内完成海量数据的过滤、聚合以及多维分析等操作。 8.近似算法 Druid包括用于近似计数 - 不同,近似排序以及近似直方图和分位数的计算的算法。这些算法供应有限的内存使用,并且通常比精确计算快得多。对于精确度比速度更重要的情况,Druid还供应精确计数 - 不同且精确的排名。 9.丰富的数据分析功能针对不同用户群体,Druid供应了友好的可视化界面、类SQL查询言语以及REST 查询接口。 3.为什么会有Druid 大数据时代,如何从海量数据中提取有价值的信息,是一个亟待处理的难题。针对这个问题,IT巨头们已经开发了大量的数据存储与分析类产品,比如IBM Netezza、HP Vertica、EMC GreenPlum等,但是他们大多是昂贵的商业付费类产品,业内使用者寥寥。 而受益于近年来高涨的开源精神,业内消灭了众多优秀的开源项目,其中最出名的当属Apache Hadoop生态圈。时至今日,Hadoop已经成为了大数据的“标准”处理方案,但是,人们在享受Hadoop便捷数据分析的同时,也必需要忍耐Hadoop在设计上的很多“痛点”,下面就陈列三方面的问题: 1.何时能进行数据查询? 对于Hadoop使用的Map/Reduce批处理框架,数据何时能够查询没有功能保证。 2.随机IO问题。 Map/Reduce批处理框架所处理的数据需要存储在HDFS上,而HDFS是一个以集群硬盘作为存储资源池的分布式文件系统,那么在海量数据的处理过程中,必定会引起大量的读写操作,此时随机IO就成为了高并发场景下的功能瓶颈。 3.数据可视化问题。 HDFS是一个优秀的分布式文件系统,但是对于数据分析以及数据的即席查询,HDFS并不是最优的选择。 传统的大数据处理架构Hadoop更倾向于一种“后台批处理的数据仓库系统”,其作为海量历史数据保存、冷数据分析,的确是一个优秀的通用处理方案,但是如何保证高并发环境下海量数据的查询分析功能,以及如何实现海量实时数据的查询分析与可视化,Hadoop的确显得有些无能为力。 4.Druid直面的痛点 Druid的母公司MetaMarket在2021年以前也是H

文档评论(0)

duanbingbing + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档