- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
..
网易视频云:Kudu,支持快速分析的新型Hadoop存储系统
网易视频云是网易倾力打造的一款基于云计算的分布式多媒体处理集群和专业音视频技术,为客户提供稳定流畅、低时延、高并发的视频直播、录制、存储、转码及点播等音视频的PaaS服务。在线教育、远程医疗、娱乐秀场、在线金融等各行业及企业用户只需经过简单的开发即可打造在在线音视频平台。
Kudu是Cloudera开源的新型列式存储系统,是Apache Hadoop生态圈的新成员之一(incubating),专门为了对快速变化的数据进行快速的分析,填补了以往Hadoop存储层的空缺。本文主要对Kudu的动机、背景,以及架构进行简单介绍。
背景——功能上的空白
??????? Hadoop生态系统有很多组件,每一个组件有不同的功能。在现实场景中,用户往往需要同时部署很多Hadoop工具来解决同一个问题,这种架构称为混合架构 (hybrid architecture)。比如,用户需要利用Hbase的快速插入、快读random access的特性来导入数据,HBase也允许用户对数据进行修改,HBase对于大量小规模查询也非常迅速。同时,用户使用HDFS/Parquet + Impala/Hive来对超大的数据集进行查询分析,对于这类场景, Parquet这种列式存储文件格式具有极大的优势。
??????? 很多公司都成功地部署了HDFS/Parquet + HBase混合架构,然而这种架构较为复杂,而且在维护上也十分困难。首先,用户用Flume或Kafka等数据Ingest工具将数据导入HBase,用户可能在HBase上对数据做一些修改。然后每隔一段时间(每天或每周)将数据从Hbase中导入到Parquet文件,作为一个新的partition放在HDFS上,最后使用Impala等计算引擎进行查询,生成最终报表。
??????? 这样一条工具链繁琐而复杂,而且还存在很多问题,比如:
?? 如何处理某一过程出现失败?
?? 从HBase将数据导出到文件,多久的频率比较合适?
?? 当生成最终报表时,最近的数据并无法体现在最终查询结果上。
?? 维护集群时,如何保证关键任务不失败?
?? Parquet是immutable,因此当HBase中删改某些历史数据时,往往需要人工干预进行同步。
??????? 这时候,用户就希望能够有一种优雅的存储解决方案,来应付不同类型的工作流,并保持高性能的计算能力。Cloudera很早就意识到这个问题,在2012年就开始计划开发Kudu这个存储系统,终于在2015年发布并开源出来。Kudu是对HDFS和HBase功能上的补充,能提供快速的分析和实时计算能力,并且充分利用CPU和I/O资源,支持数据原地修改,支持简单的、可扩展的数据模型。
背景——新的硬件设备
??????? RAM的技术发展非常快,它变得越来越便宜,容量也越来越大。Cloudera的客户数据显示,他们的客户所部署的服务器,2012年每个节点仅有32GB RAM,现如今增长到每个节点有128GB或256GB RAM。存储设备上更新也非常快,在很多普通服务器中部署SSD也是屡见不鲜。HBase、HDFS、以及其他的Hadoop工具都在不断自我完善,从而适应硬件上的升级换代。然而,从根本上,HDFS基于03年GFS,HBase基于05年BigTable,在当时系统瓶颈主要取决于底层磁盘速度。当磁盘速度较慢时,CPU利用率不足的根本原因是磁盘速度导致的瓶颈,当磁盘速度提高了之后,CPU利用率提高,这时候CPU往往成为系统的瓶颈。HBase、HDFS由于年代久远,已经很难从基本架构上进行修改,而Kudu是基于全新的设计,因此可以更充分地利用RAM、I/O资源,并优化CPU利用率。我们可以理解为,Kudu相比与以往的系统,CPU使用降低了,I/O的使用提高了,RAM的利用更充分了。
?
简介
??????? Kudu设计之初,是为了解决一下问题:
?? 对数据扫描(scan)和随机访问(random access)同时具有高性能,简化用户复杂的混合架构
?? 高CPU效率,使用户购买的先进处理器的的花费得到最大回报
?? 高IO性能,充分利用先进存储介质
?? 支持数据的原地更新,避免额外的数据处理、数据移动
?? 支持跨数据中心replication
??????? Kudu的很多特性跟HBase很像,它支持索引键的查询和修改。Cloudera曾经想过基于Hbase进行修改,然而结论是对HBase的改动非常大,Kudu的数据模型和磁盘存储都与Hbase不同。HBase本身成功的适用于大量的其它场景,因此修改HBase很可能吃力不讨好。最后Cloudera决定开发一个全新的存
您可能关注的文档
- 预制电缆沟与施工工艺.doc
- 网络歌曲《老鼠爱大米》-著作权纠纷案例分析.doc
- 钢筋挤压套筒连接及方案().doc
- 预制管廊吊装与施工工艺.doc
- 苗木采购服务与方案.doc
- 高中综合实践活动与方案设计.doc
- 致远互联协同oa系统合同管理与解决与方案.doc
- 致远互联协同oa系统费用预算管理与解决与方案.doc
- 超融合数据中心与解决与方案==.doc
- 违停自动抓拍识别与解决与方案.doc
- 某区纪委书记年度民主生活会“四个带头”个人对照检查材料.docx
- 某县纪委监委2024年工作总结及2025年工作计划.docx
- 某市场监督管理局2024年第四季度意识形态领域风险分析研判报告.docx
- 县委书记履行全面从严治党“第一责任人”职责情况汇报.docx
- 税务局党委书记2024年抓党建工作述职报告.docx
- 某市税务局副局长202X年第一季度“一岗双责”履行情况报告.docx
- 副县长在全县元旦春节前后安全生产和消防安全工作部署会议上的讲话.docx
- 某市委书记个人述职报告.docx
- 某县长在县委常委班子年度民主生活会个人对照检查材料1.docx
- 某县长在县委常委班子年度民主生活会个人对照检查材料.docx
最近下载
- QC∕T 1064-2017 -道路运输易燃液体危险货物罐式车辆 呼吸阀.pdf
- 2025届长江产业投资集团有限公司校园招聘笔试备考试题及答案解析.docx
- 江苏师范大学2021-2022学年第1学期《商业银行经营管理》期末考试试卷(A卷)及标准答案.docx
- 2021-2022国家开放大学电大《实用写作》教学考一体化作业练习一答案.pdf VIP
- 精品解析:广东省广州市2023-2024学年高二上学期1月期末化学试题-A4答案卷尾.docx VIP
- 工程机械租赁与人员雇佣项目培训方案.doc
- 2023年山东铝业职业学院高职单招语文/数学/英语考试题库历年考题汇编答案详解析.docx
- 第七单元 能源的合理利用与开发 单元小结 教学设计-2024-2025学年九年级化学人教版上册.docx
- 五年级上学期期末数学试卷.pdf VIP
- 中药熏洗(修正版)演示课件.ppt VIP
文档评论(0)