支持快速分析的新型Hadoop存储系统-kudu _光环大数据培训精选.pdfVIP

下载本文档

7
0
约6.46千字
约 6页
2018-01-25 发布于贵州
举报
版权申诉

支持快速分析的新型Hadoop存储系统-kudu _光环大数据培训精选.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

支持快速分析的新型Hadoop存储系统-kudu _光环大数据培训精选

光环大数据--大数据培训知名品牌支持快速分析的新型 Hadoop 存储系统-kudu _光环大数据培训光环大数据培训认为，Kudu 是 Cloudera 开源的新型列式存储系统，是 Apache hadoop 生态圈的新成员之一 (incubating)，专门为了对快速变化的数据进行快速的分析，填补了以往 Hadoop 存储层的空缺。本文主要对 Kudu 的动机、背景，以及架构进行简单介绍。背景——功能上的空白 Hadoop 生态系统有很多组件，每一个组件有不同的功能。在现实场景中，用户往往需要同时部署很多 Hadoop 工具来解决同一个问题，这种架构称为混合架构 (hybrid architecture)。比如，用户需要利用Hbase 的快速插入、快读 random access 的特性来导入数据，HBase 也允许用户对数据进行修改，HBase 对于大量小规模查询也非常迅速。同时，用户使用 HDFS/Parquet + Impala/Hive 来对超大的数据集进行查询分析，对于这类场景， Parquet 这种列式存储文件格式具有极大的优势。很多公司都成功地部署了 HDFS/Parquet + HBase 混合架构，然而这种架构较为复杂，而且在维护上也十分困难。首先，用户用 Flume 或 Kafka 等数据 Ingest 工具将数据导入 HBase，用户可能在HBase 上对数据做一些修改。然后每隔一段时间(每天或每周)将数据从 Hbase 中导入到Parquet 文件，作为一个新的 partition 放在 HDFS 上，最后使用 Impala 等计算引擎进行查询，生成最终报表。这样一条工具链繁琐而复杂，而且还存在很多问题，比如： ·?如何处理某一过程出现失败? ·?从 HBase 将数据导出到文件，多久的频率比较合适? ·?当生成最终报表时，最近的数据并无法体现在最终查询结果上。 ·?维护集群时，如何保证关键任务不失败? ·?Parquet是 immutable，因此当HBase 中删改某些历史数据时，往往需要人工干预进行同步。这时候，用户就希望能够有一种优雅的存储解决方案，来应付不同类型的工作流，并保持高性能的计算能力。Cloudera 很早就意识到这个问题，在 2012 年就开始计划开发 Kudu 这个存储系统，终于在 2015 年发布并开源出来。Kudu 是光环大数据光环大数据--大数据培训知名品牌对 HDFS 和 HBase 功能上的补充，能提供快速的分析和实时计算能力，并且充分利用 CPU 和 I/O 资源，支持数据原地修改，支持简单的、可扩展的数据模型。背景——新的硬件设备 RAM 的技术发展非常快，它变得越来越便宜，容量也越来越大。Cloudera 的客户数据显示，他们的客户所部署的服务器，2012 年每个节点仅有 32GB RAM，现如今增长到每个节点有 128GB 或 256GB RAM。存储设备上更新也非常快，在很多普通服务器中部署 SSD 也是屡见不鲜。HBase、HDFS、以及其他的Hadoop 工具都在不断自我完善，从而适应硬件上的升级换代。然而，从根本上，HDFS 基于 03 年 GFS，HBase 基于 05 年 BigTable，在当时系统瓶颈主要取决于底层磁盘速度。当磁盘速度较慢时，CPU 利用率不足的根本原因是磁盘速度导致的瓶颈，当磁盘速度提高了之后，CPU 利用率提高，这时候 CPU 往往成为系统的瓶颈。HBase、 HDFS 由于年代久远，已经很难从基本架构上进行修改，而Kudu 是基于全新的设计，因此可以更充分地利用 RAM、I/O 资源，并优化 CPU 利用率。我们可以理解为，Kudu 相比与以往的系统，CPU 使用降低了，I/O 的使用提高了，RAM 的利用更充分了。简介 Kudu 设计之初，是为了解决一下问题： ·?对数据扫描 (scan)和随机访问 (random access)同时具有高性能，简化用户复杂的混合架构 ·?高 CPU 效率，使用户购买的先进