- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
聊聊另外一个Druid(很全)
2021-10-28
更多内容关注:fullstack888
1.什么是Druid
说起 Druid,大家首先想到的是阿里的 Druid 数据库连接池,而本文引见的 Druid 是一个在大数据场景下的处理方案,是需要在简单的海量数据下进行交互式实时数据呈现的 BI/OLAP 工具。Druid是一个专为大型数据集上的高功能切片和OLAP分析而设计的数据存储。Druid最常用作为GUI分析应用程序供应动力的数据存储,或者用作需要快速聚合的高度并发API的后端。Druid的常见应用领域包括:
点击流分析
网络流量分析
服务器目标存储
应用功能目标
数字营销分析
商业智能/OLAP
2.druid的次要特点
1.列式存储格式 Druid使用面对列的存储,这意味着它只需要加载特定查询所需的精确列。这为仅查看几列的查询供应了巨大的速度提升。此外,每列都针对其特定数据类型进行了优化,支持快速扫描和聚合。
2.高可用性与高可拓展性 Druid接受分布式、SN(share-nothing)架构,管理类节点可配置HA,工作节点功能单一,不相互依靠,这些特性都使得Druid集群在管理、容错、灾备、扩容等方面变得格外简约。Druid通常部署在数十到数百台服务器的集群中,并且可以供应数百万条记录/秒的摄取率,保留数万亿条记录,以及亚秒级到几秒钟的查询延迟。
3.大规模并行处理 Druid可以在整个集群中并行处理查询。
4.实时或批量摄取 实时流数据分析。区分于传统分析型数据库接受的批量导入数据进行分析的方式,Druid供应了实时流数据分析,接受LSM(Long structure-merge)-Tree结构使Druid拥有极高的实时写入功能;同时实现了实时数据在亚秒级内的可视化。
5.自愈,自平衡,易于操作 作为运营商,要将群集扩展或缩小,只需添加或删除服务器,群集将在后台自动重新平衡,无需任何停机时间。假如任何Druid服务器发生毛病,系统将自动路由损坏,直到可以更换这些服务器。Druid旨在全天候运转,无需任何缘由方案停机,包括配置更改和软件更新。
6.云原生,容错的架构,不会丢失数据 一旦Druid摄取了您的数据,副本就会平安地存储在深层存储(通常是云存储,HDFS或共享文件系统)中。即便每个Druid服务器都消灭毛病,您的数据也可以从深层存储中恢复。对于仅影响少数Druid服务器的更有限的毛病,复制可确保在系统恢复时仍可进行查询。
7.亚秒级的OLAP查询分析 Druid接受了列式存储、倒排索引、位图索引等关键技术,能够在亚秒级别内完成海量数据的过滤、聚合以及多维分析等操作。
8.近似算法 Druid包括用于近似计数 - 不同,近似排序以及近似直方图和分位数的计算的算法。这些算法供应有限的内存使用,并且通常比精确计算快得多。对于精确度比速度更重要的情况,Druid还供应精确计数 - 不同且精确的排名。
9.丰富的数据分析功能针对不同用户群体,Druid供应了友好的可视化界面、类SQL查询言语以及REST 查询接口。
3.为什么会有Druid
大数据时代,如何从海量数据中提取有价值的信息,是一个亟待处理的难题。针对这个问题,IT巨头们已经开发了大量的数据存储与分析类产品,比如IBM Netezza、HP Vertica、EMC GreenPlum等,但是他们大多是昂贵的商业付费类产品,业内使用者寥寥。
而受益于近年来高涨的开源精神,业内消灭了众多优秀的开源项目,其中最出名的当属Apache Hadoop生态圈。时至今日,Hadoop已经成为了大数据的“标准”处理方案,但是,人们在享受Hadoop便捷数据分析的同时,也必需要忍耐Hadoop在设计上的很多“痛点”,下面就陈列三方面的问题:
1.何时能进行数据查询? 对于Hadoop使用的Map/Reduce批处理框架,数据何时能够查询没有功能保证。
2.随机IO问题。 Map/Reduce批处理框架所处理的数据需要存储在HDFS上,而HDFS是一个以集群硬盘作为存储资源池的分布式文件系统,那么在海量数据的处理过程中,必定会引起大量的读写操作,此时随机IO就成为了高并发场景下的功能瓶颈。
3.数据可视化问题。 HDFS是一个优秀的分布式文件系统,但是对于数据分析以及数据的即席查询,HDFS并不是最优的选择。
传统的大数据处理架构Hadoop更倾向于一种“后台批处理的数据仓库系统”,其作为海量历史数据保存、冷数据分析,的确是一个优秀的通用处理方案,但是如何保证高并发环境下海量数据的查询分析功能,以及如何实现海量实时数据的查询分析与可视化,Hadoop的确显得有些无能为力。
4.Druid直面的痛点
Druid的母公司MetaMarket在2021年以前也是H
您可能关注的文档
最近下载
- 新入职保安培训知识课件.pptx VIP
- Unit5 a cherry, please(课件)译林版(一起)英语一年级上册.pptx
- OEE计算表格(完整工具).xls VIP
- 食品生产企业有害生物风险管理指南.docx VIP
- 《计算机控制系统》课后题答案-刘建昌.pdf VIP
- 2025年医学课件-转变围术期麻醉管理理念推进ERAS加速康复外科建设.pptx VIP
- 加强县级行政事业单位房地资产管理的思考.doc VIP
- 2024人民防空工程常见技术问题及解答.docx VIP
- 人教版鄂教版科学二年级上册二单元《水和空气》大单元教学设计.pdf VIP
- T_GDPAWS 33-2024 城镇污水处理企业应急能力建设规范.docx VIP
原创力文档


文档评论(0)