- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
会计学;
;Hadoop概述;
分布式文件系统(Hadoop Distributed File System,HDFS)
并行计算模型(Map/Reduce)
列式数据库(HBase)
数据仓库(Hive)
数据分析语言(Pig)
数据格式转化工具(Sqoop)
协同工作系统(Zookeeper)
数据序列化系统(Avro)
;Hadoop整体框架下特点;
;HDFS概述-----基本特征;HDFS的对现实应用环境的假设及其目标;;HDFS架构;
;Map/Reduce简介;Map/Reduce概念;Map/Reduce模型; 一次Map/Reduce任务过程。用户提交任务给JobTracer,JobTracer把对应的用户程序中的Map操作和Reduce操作映射至TaskTracer节点中;输入模块负责把输入数据分成小数据块,然后把它们传给Map节点;Map节点得到每一个key/value对,处理后产生一个或多个key/value对,然后写入文件;Reduce节点获取临时文件中的数据,对带有相同key的数据进行迭代计算,然后把终结果写入文件。
;Map/Reduce优缺点;
;Hbase简介;Hbase数据模型;HBase下表的逻辑视图;HBase下表的物理视图; 一张表创建的初始阶段其中只含有一个Region,随着表中数据的量的不断增多,一个Region会分裂为两个Region,然后不断重复上述过程,并且Region会被存储到HDFS中不同的DataNode上。Region包含有一个或多个的Store,其数量增长过程同表中的Region数量增长过程一致。但是Store中分为两个部分:第一个部分是Memstore,一个Store中只包含一个Memstore,并且Memstore存储在内存空间中;第二个部分是Storefile,此部分由Memstore写入硬盘而得。随着Memstore写入硬盘的次数增多,Storefile的数量也会增加,当文件个数增加到一定量时,系统会自动对Storefile文件进行合并。合并过程中主要完成以下几个工作:1.具有相同行键的行存放在一个文件中;2.扔掉被标志为删除的行;3.扔掉时间戳过期的行,完成更新操作。随着合并操作的频繁执行Storefile会变得很大,达到一定文件大小时自动分裂文件,贴合HDFS中对一个块数据大小的定义。
HBase的一张表中的多个列族(Column Family),在物理存储上一个列族对应一个文件夹,一个文件夹中可包含若干个Hfile文件。Hfile是图(2-4)中Storefile的底层文件格式,StoreFile就是对Hfile做了轻量级包装。; 一个Hfile中包含有若干个数据块(Data block??和对应数量的元数据块(Meta block)。数据块中以键值对形式存放的用户数据被称之为记录(Record),一条记录保存一个键值对或者说保存一个单元的数据;元数据块其主要作用是判断一个键值是都在当前Hfile文件中;文件信息(FileInfo)中保存了与该HFile相关的一些信息,其中有系统保留的一些固定的值,也可以保存用户自定义的一些值;数据块索引(Data Block Index)保存的是每一个数据块在HFile文件中的位置、大小信息以及每个块的第一个单元的键值;元数据索引(Meta Block Index)的格式与数据库索引相同,元数据块索引保存的是每一个元数据在HFile文件中的位置、大小信息以及每个元数据的键值;文件尾(Fixed file trailer)主要保存了该Hfile的一些基本信息,其大小固定,主要是可以根据它查找到Fileinfo,Block Index的起始位置。
原创力文档


文档评论(0)