基于Hadoop平台数据压缩技术研究.docVIP

下载本文档

15
0
约3.72千字
约 8页
2018-08-28 发布于福建
举报
版权申诉

基于Hadoop平台数据压缩技术研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Hadoop平台数据压缩技术研究

基于Hadoop平台数据压缩技术研究　　摘要：随着电商企业、互联网+、智慧城市等新商业革命的发展和社会网络的广泛应用，带动相关信息的数据量极速增长，从大量的数据中搜索潜在的有效、全面的信息，预测未来的发展趋势显得十分必要。数据量越大挖掘到的价值就越多，进而有助于支持决策。为了提高数据库性能，改进数据库查询效率的同时采用数据压缩技术对数据进行压缩，减少文件所占存储空间并保证在压缩过程中不丢失信息。本文对Hadoop框架进行介绍，并对基于Hadoop的数据压缩技术进行分析和研究，对压缩算法进行比较及使用场景。　　关键词：Hadoop 压缩压缩算法　　中图分类号：TP333 文献标识码：A 文章编号：1007-9416（2016）08-0094-02 　　近年来文本、声音、图像等各类信息数据量迅速增长，而人们对数据的研究往往关注于存储效率、存储量、安全性、完整性和带宽等方面，产生的数据会有一定的冗余，而冗余数据也占用了磁盘空间和网络带宽，随着数据量的增大，数据的存储效率和存储量受到限制，导致磁盘和带宽利用率降低。信息技术的普及使产生的数据量持续增长，数据存储的硬件管理愈加复杂，如果不对海量的数据进行处理就难以高效、全面的应用。对大数据的处理优化方式有很多种，本文主要介绍在使用Hadoop平台中对数据进行压缩处理来提高数据处理效率。　　Hadoop作为比较通用的海量数据处理平台，提供了一些压缩方法的支持，如果期间的输出数据、中间数据能压缩存储，对系统的I/O性能有所提升。在使用压缩方面，主要考虑压缩速度和压缩文件的可分割性。Hadoop实现了HDFS分布式文件系统和MapReduce计算的核心框架，以一种可靠、高效、可伸缩的方式进行数据处理。构建在Hadoop系统之上的数据分析型应用也越来越多，在数据分析型应用中，数据压缩减少了数据存储量，进而减少了查询中的磁盘I/O量和网络数据传输量。　　1 Hadoop框架　　Hadoop是一个开源分布式计算平台，能够对大量数据进行分布式处理的软件框架。Hadoop是以一种高效、可靠、可伸缩的方式进行处理的，它维护多个工作数据的副本确保能够对处理失败的节点重新分布；由于其以并行方式工作，通过并行处理加快处理速度；而且能够处理PB级数据。此外，Hadoop依赖于社区服务器，成本较低。以Hadoop分布式文件系统HDFS和分布式计算框架MapReduce为核心。在分布式集群中，HDFS存取MapReduce需要的数据，MapReduce负责调度与计算为用户提供了底层细节透明的分布式基础设施。　　1.1 HDFS概述及体系架构　　HDFS是Hadoop分布式计算中数据存储和管理的基础，一个具有高度容错性的分布式文件系统，是基于流式数据访问和处理超大文件的需求而开发的，可以部署在廉价的硬件设备上。适合存储信息量非常大的文件，并且具备对数据读写的高吞吐量。但是由于Namenode内存大小限制，不适合存储大量小文件，而且HDFS不适于在数据需要经常修改的情况。　　Block：将一个文件进行分块，通常是64M。　　NameNode：管理数据块映射，处理客户端的读写请求，配置副本策略，保存整个文件系统的目录信息、文件信息及分块信息。　　SecondaryNameNode：分担NameNode的工作量，保存对元数据信息的备份。　　DataNode：分布在廉价的设备上，用于存储数据块，提供具体的数据存储服务，执行数据块的读写操作。　　1.2 MapReduce概述及处理框架　　MapReduce是一个从海量源数据提取分析元素并返回结果集的编程模型，可以进行大量数据的计算任务可以被分解为多个子任务，这些子任务相对独立，相互之间不会有影响，可以并行处理，处理完这些子任务后，任务处理完成。可解决海量数据的处理问题：如：Top K、频率统计、倒排索引构建（用于关键词搜索）等问题。　　2 压缩算法介绍　　Hadoop可自动识别压缩格式，压缩文件有相应的压缩格式的扩展名（如gz、bz2、lzo等），Hadoop会根据压缩格式的扩展名自动选择相对应的解码器来解压数据，该过程由Hadoop自动处理。一般来说，根据应用的具体情况来决定所使用的压缩格式，如速度更快、空间最优、压缩比高等不同策略，通过具有代表性的数据集进行测试，找到最佳方案。　　Gzip压缩（*.gz）：Hadoop中内置支持的一种压缩方式，该压缩方式在Linux的开发人员和管理员中使用的比较广泛，压缩比较高，压缩/解压速度较快。在应用中处理Gzip格式的文件就和直接处理文本一样。Gzip压缩有一定的局限性，由于其算法本身的原因，无法对Gzip压缩文件进行分块。　　Bzip2压缩（*.bz2）：