- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
支持快速分析的新型Hadoop存储系统-kudu _光环大数据培训精选
光环大数据--大数据培训知名品牌
支持快速分析的新型 Hadoop 存储系统-kudu _光环大数据培训
光环大数据培训认为,Kudu 是 Cloudera 开源的新型列式存储系统,是 Apache
hadoop 生态圈的新成员之一 (incubating),专门为了对快速变化的数据进行快
速的分析,填补了以往 Hadoop 存储层的空缺。本文主要对 Kudu 的动机、背景,
以及架构进行简单介绍。
背景——功能上的空白
Hadoop 生态系统有很多组件,每一个组件有不同的功能。在现实场景中,
用户往往需要同时部署很多 Hadoop 工具来解决同一个问题,这种架构称为混合
架构 (hybrid architecture)。比如,用户需要利用Hbase 的快速插入、快读
random access 的特性来导入数据,HBase 也允许用户对数据进行修改,HBase
对于大量小规模查询也非常迅速。同时,用户使用 HDFS/Parquet + Impala/Hive
来对超大的数据集进行查询分析,对于这类场景, Parquet 这种列式存储文件
格式具有极大的优势。
很多公司都成功地部署了 HDFS/Parquet + HBase 混合架构,然而这种架构
较为复杂,而且在维护上也十分困难。首先,用户用 Flume 或 Kafka 等数据 Ingest
工具将数据导入 HBase,用户可能在HBase 上对数据做一些修改。然后每隔一段
时间(每天或每周)将数据从 Hbase 中导入到Parquet 文件,作为一个新的
partition 放在 HDFS 上,最后使用 Impala 等计算引擎进行查询,生成最终报表。
这样一条工具链繁琐而复杂,而且还存在很多问题,比如:
·?如何处理某一过程出现失败?
·?从 HBase 将数据导出到文件,多久的频率比较合适?
·?当生成最终报表时,最近的数据并无法体现在最终查询结果上。
·?维护集群时,如何保证关键任务不失败?
·?Parquet是 immutable,因此当HBase 中删改某些历史数据时,往往需要
人工干预进行同步。
这时候,用户就希望能够有一种优雅的存储解决方案,来应付不同类型的工
作流,并保持高性能的计算能力。Cloudera 很早就意识到这个问题,在 2012 年
就开始计划开发 Kudu 这个存储系统,终于在 2015 年发布并开源出来。Kudu 是
光环大数据
光环大数据--大数据培训知名品牌
对 HDFS 和 HBase 功能上的补充,能提供快速的分析和实时计算能力,并且充分
利用 CPU 和 I/O 资源,支持数据原地修改,支持简单的、可扩展的数据模型。
背景——新的硬件设备
RAM 的技术发展非常快,它变得越来越便宜,容量也越来越大。Cloudera 的
客户数据显示,他们的客户所部署的服务器,2012 年每个节点仅有 32GB RAM,
现如今增长到每个节点有 128GB 或 256GB RAM。存储设备上更新也非常快,在很
多普通服务器中部署 SSD 也是屡见不鲜。HBase、HDFS、以及其他的Hadoop 工具
都在不断自我完善,从而适应硬件上的升级换代。然而,从根本上,HDFS 基于
03 年 GFS,HBase 基于 05 年 BigTable,在当时系统瓶颈主要取决于底层磁盘速
度。当磁盘速度较慢时,CPU 利用率不足的根本原因是磁盘速度导致的瓶颈,当
磁盘速度提高了之后,CPU 利用率提高,这时候 CPU 往往成为系统的瓶颈。HBase、
HDFS 由于年代久远,已经很难从基本架构上进行修改,而Kudu 是基于全新的设
计,因此可以更充分地利用 RAM、I/O 资源,并优化 CPU 利用率。我们可以理解
为,Kudu 相比与以往的系统,CPU 使用降低了,I/O 的使用提高了,RAM 的利用
更充分了。
简介
Kudu 设计之初,是为了解决一下问题:
·?对数据扫描 (scan)和随机访问 (random access)同时具有高性能,简化用
户复杂的混合架构
·?高 CPU 效率,使用户购买的先进
您可能关注的文档
最近下载
- 老年慢性肌肉骨骼疼痛热敏灸技术规范.pdf VIP
- 行业标准《氧化锆、氧化铪化学分析方法 第13部分:氧化铪中硼、钠、镁、铝、硅、钙、钛、钒、铬、锰、铁、钴、镍、铜、锌、锆、铌、钼、镉、锡、锑、钽、钨、铅、铋含量的测定 电感耦合等离子体质谱法》编制说明(预审稿).docx VIP
- 人防通风控制箱.pdf VIP
- 关于医院“十五五”五年发展规划(2025年-2029年).docx VIP
- JTT - 危险货物道路运输营运车辆安全技术条件(1).docx VIP
- 关于医院“十五五”五年发展规划(2025年-2029年).pdf VIP
- 人工智能时代高职综合英语课程思政的融合与创新.pdf VIP
- 8-山东省商贸企业安全生产诊断分类分级指导标准.docx VIP
- 天气预报早会游戏.ppt VIP
- 工学一体化课程《小型网络管理与维护》任务2单元2教学单元活动方案.docx VIP
文档评论(0)