- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网易视频云:Kudu,支持快速分析的新型
Hadoop 存储系统
网易视频云是网易倾力打造的一款基于云计算的分布式多媒体
处理集群和专业音视频技术,为客户提供稳定流畅、低时延、高并发
的视频直播、录制、存储、转码及点播等音视频的 PaaS 服务。在线教
育、远程医疗、娱乐秀场、在线金融等各行业及企业用户只需经过简
单的开发即可打造在在线音视频平台。
Kudu 是 Cloudera 开源的新型列式存储系 ,是 Apache Hadoop
生态圈的新成员之一(incubating),专门为了对快速变化的数据进行快
速的分析,填补了以往 Hadoop 存储层的空缺。本文主要对 Kudu 的动
机、背景,以及架构进行简单介绍。
背景——功能上的空白
Hadoop 生态系 有很多组件,每一个组件有不同的功能。在
现实场景中,用户往往需要同时部署很多 Hadoop 工具来解决同一个
问题,这种架构称为混合架构 (hybrid architecture) 。比如,用户需要
利用 Hbase 的快速插入、快读 random access 的特性来导入数据,
HBase 也允许用户对数据进行修改,HBase 对于大量小规模查询也非
常迅速。同时,用户使用 HDFS/Parquet + Impala/Hive 来对超大的数据
集进行查询分析,对于这类场景, Parquet 这种列式存储文件格式具
有极大的优势。
很多公司都成功地部署了 HDFS/Parquet + HBase 混合架构,
然而这种架构较为复杂,而且在维护上也十分困难。首先,用户用
Flume 或 Kafka 等数据 Ingest 工具将数据导入 HBase,用户可能在
HBase 上对数据做一些修改。然后每隔一段时间(每天或每周)将数据
从 Hbase 中导入到 Parquet 文件,作为一个新的partition 放在 HDFS 上,
最后使用 Impala 等计算引擎进行查询,生成最终报表。
这样一条工具链繁琐而复杂,而且还存在很多 问题,比如:
如何处理某一过程出现失败 ?
从HBase 将数据导出到文件,多久的频率比较合适?
当生成最终报表时,最近的数据并无法体现在最终
查询结果上。
维护集群时,如何保证关键任务不失败 ?
Parquet 是 immutable,因此当HBase 中删改某些历史
数据时,往往需要人工干预进行同步。
这时候,用户就希望能够有一种优雅的存储解决方案,来应
付不同类型的工作流,并保持高性能的计算能力。Cloudera 很早就意
识到这个问题,在 2012 年就开始计划开发 Kudu 这个存储系 ,终于
在 2015 年发布并开源出来。Kudu 是对 HDFS 和 HBase 功能上的补充,
能提供快速的分析和实时计算能力,并且充分利用 CPU 和 I/O 资源,
支持数据原地修改,支持简单的、可扩展的数据模型。
背景——新的硬件设备
RAM 的技术发展非常快,它变得越来越便宜,容量也越来
越大。Cloudera 的客户数据显示,他们的客户所部署的服务器,2012
年每个节点仅有 32GB RAM,现如今增长到每个节点有 128GB 或
256GB RAM。存储设备上更新也非常快,在很多普通服务器中部署
SSD 也是屡见不鲜。HBase、HDFS、以及其他的Hadoop 工具都在不断
自我完善,从而适应硬件上的升级换代。然而,从根本上,HDFS 基于
03 年 GFS,HBase 基于 05 年 BigTable,在当时系 瓶颈主要取决于底
层磁盘速度。当磁盘速度较慢时,CPU 利用率不足的根本原因是磁盘
速度导致的瓶颈,当磁盘速度提高了之后,CPU 利用率提高,这时候
CPU 往往成为系 的瓶颈。HBase、HDFS 由于年代久远,已经很难从
基本架构上进行修改,而 Kudu 是基于全新的设计,因此可以更充分
地利用 RAM、I/O 资源,并优化
您可能关注的文档
最近下载
- 【9历期中】安徽省合肥市第四十八中学2024-2025学年九年级上学期期中历史试题(含解析).docx VIP
- PLC项目实训——传送带的PLC控制 课件.pptx VIP
- 新型冠状病毒肺炎诊疗指南解析.docx VIP
- Unit 6 Rain or shine 单元导学案 七年级英语下册(人教版2024).pdf
- 《建筑地基处理技术规范2012》.pdf VIP
- 人教版小学语文一年级上册生字表笔顺.pdf VIP
- 1.8 天气的影响(教学设计) 2025教科版科学三年级上册.docx
- 超星网课尔雅《法律与社会》超星尔雅答案2023章节测验答案.pdf
- 卓越研究生英语_综合教程1(人文篇)吴樯_习题答案解析.pdf
- 鼠标键盘操作.ppt VIP
文档评论(0)