初识Hadoop文件格式绪论.docxVIP

下载本文档

26
0
约 15页
2017-03-15 发布于湖北
举报
版权申诉

初识Hadoop文件格式绪论.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

技术文件技术文件名称：初识Hadoop文件格式技术文件编号：版本：1.0拟制曹志勇审核会签标准化批准深圳中兴力维技术有限公司修改记录文件编号版本号拟制人/修改人拟制/修改日期更改理由主要更改内容（写要点即可）V1.0曹志勇2015-11-23无无注1：每次更改归档文件时，需填写此表。注2：文件第一次归档时，“更改理由”、“主要更改内容”栏写“无”。目录1编写目的42Hadoop生态结构描述42.1Hadoop生态结构图42.2HDFS42.3Map/Reduce52.4Zookeeper62.5HBase62.6Hipi62.7Hive72.8Pig73Hadoop文件类型83.1文件类型分布情况83.2HDFS文件类型83.2.1SequenceFile83.2.2MapFile93.2.3文本格式93.2.4外部文件103.3HBase文件类型103.3.1HFile V1103.3.2HFile V2113.3.3HFile V3113.3.4HLog113.4Hive文件类型113.4.1RCFile113.4.2ORCFile123.4.3Avro File133.5Hipi文件类型153.5.1HIB154总结15编写目的了解Hadoop大数据相关的技术，应用于我们的视频平台有哪些文件格式可以利用，分析不同文件格式的优缺点，视频平台哪些场景推荐使用哪些文件格式，对以后在项目中使用Hadoop大数据奠定基础，提供参考。Hadoop生态结构描述Hadoop生态结构图根据上图可知，Hadoop的核心功能就是蓝色部分的HDFS(分布式文件系统)和Map/Reduce(分布式计算)，绿色部分则是围绕这两项核心功能开发的外围功能或框架。HDFSHDFS的架构图如下，对外部客户机而言，HDFS 就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件，等等。但是 HDFS 的架构是基于一组特定的节点构建的（参见图 1），这是由它自身的特点决定的。这些节点包括 NameNode（仅一个），它在 HDFS 内部提供元数据服务；DataNode，它为 HDFS 提供存储块。由于仅存在一个 NameNode，因此这是 HDFS 的一个缺点（单点失败）。存储在 HDFS 中的文件被分成块，然后将这些块复制到多个计算机中（DataNode）。这与传统的 RAID 架构大不相同。块的大小（通常为 64MB）和复制的块数量在创建文件时由客户机决定。NameNode 可以控制所有文件操作。HDFS 内部的所有通信都基于标准的 TCP/IP 协议。Map/ReduceMapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算，Map（映射）和Reduce（化简）。ZookeeperZooKeeper是Hadoop的正式子项目，它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。HBaseHBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，是开源数据库，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。HipiHipi是hadoop图片处理的框架,它提供了用于在分布式计算环境中执行图片处理任务的API。主要用于合并及切割图像文件。因为hadoop框架很适合大文件的操作,而我们平时使用的图片的文件都比较小，如果这种小文件不经过处理直接上传，会十分影响性能,所以Hipi框架具备图片的合并以及分割的功能。至于视频，Hipi支持OpenCV，实际上视频本身就是一个大文件，hadoop对于大文件处理是高效的，所以在MapReduce的处理上需要使用ffmepg将视频切割为图像后再将图像转换为javacv可识别的流数据即可。在其他的环节处理视频和图像总体来说都是一样的。Hipi典型的Map/Redure工作流程图如下：到目前为止，还没有找到关于处理Video格式的Hadoop解决方案，实在不行就只能自己想办法写Video格式的InputFormat和RecordReader了，但这将是一个很复杂的工作。目前只有通过Hipi似乎是解决Video格式的一个比较好的解决方案。通过三步来实现这一过程：输入部分，即帧图像采集部分：从多个视频源中实时采集出多张图片，并把这些图片通过Hipi上传到HDFS；中间部，即图像分析部分：把所有HDFS图片分散给集群，运行OpenCV程序分析图像，并返回分析