- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于Hadoop平台数据压缩技术研究
基于Hadoop平台数据压缩技术研究
摘要:随着电商企业、互联网+、智慧城市等新商业革命的发展和社会网络的广泛应用,带动相关信息的数据量极速增长,从大量的数据中搜索潜在的有效、全面的信息,预测未来的发展趋势显得十分必要。数据量越大挖掘到的价值就越多,进而有助于支持决策。为了提高数据库性能,改进数据库查询效率的同时采用数据压缩技术对数据进行压缩,减少文件所占存储空间并保证在压缩过程中不丢失信息。本文对Hadoop框架进行介绍,并对基于Hadoop的数据压缩技术进行分析和研究,对压缩算法进行比较及使用场景。
关键词:Hadoop 压缩 压缩算法
中图分类号:TP333 文献标识码:A 文章编号:1007-9416(2016)08-0094-02
近年来文本、声音、图像等各类信息数据量迅速增长,而人们对数据的研究往往关注于存储效率、存储量、安全性、完整性和带宽等方面,产生的数据会有一定的冗余,而冗余数据也占用了磁盘空间和网络带宽,随着数据量的增大,数据的存储效率和存储量受到限制,导致磁盘和带宽利用率降低。信息技术的普及使产生的数据量持续增长,数据存储的硬件管理愈加复杂,如果不对海量的数据进行处理就难以高效、全面的应用。对大数据的处理优化方式有很多种,本文主要介绍在使用Hadoop平台中对数据进行压缩处理来提高数据处理效率。
Hadoop作为比较通用的海量数据处理平台,提供了一些压缩方法的支持,如果期间的输出数据、中间数据能压缩存储,对系统的I/O性能有所提升。在使用压缩方面,主要考虑压缩速度和压缩文件的可分割性。Hadoop实现了HDFS分布式文件系统和MapReduce计算的核心框架,以一种可靠、高效、可伸缩的方式进行数据处理。构建在Hadoop系统之上的数据分析型应用也越来越多,在数据分析型应用中,数据压缩减少了数据存储量,进而减少了查询中的磁盘I/O量和网络数据传输量。
1 Hadoop框架
Hadoop是一个开源分布式计算平台,能够对大量数据进行分布式处理的软件框架。Hadoop是以一种高效、可靠、可伸缩的方式进行处理的,它维护多个工作数据的副本确保能够对处理失败的节点重新分布;由于其以并行方式工作,通过并行处理加快处理速度;而且能够处理PB级数据。此外,Hadoop依赖于社区服务器,成本较低。以Hadoop分布式文件系统HDFS和分布式计算框架MapReduce为核心。在分布式集群中,HDFS存取MapReduce需要的数据,MapReduce负责调度与计算为用户提供了底层细节透明的分布式基础设施。
1.1 HDFS概述及体系架构
HDFS是Hadoop分布式计算中数据存储和管理的基础,一个具有高度容错性的分布式文件系统,是基于流式数据访问和处理超大文件的需求而开发的,可以部署在廉价的硬件设备上。适合存储信息量非常大的文件,并且具备对数据读写的高吞吐量。但是由于Namenode内存大小限制,不适合存储大量小文件,而且HDFS不适于在数据需要经常修改的情况。
Block:将一个文件进行分块,通常是64M。
NameNode:管理数据块映射,处理客户端的读写请求,配置副本策略,保存整个文件系统的目录信息、文件信息及分块信息。
SecondaryNameNode:分担NameNode的工作量,保存对元数据信息的备份。
DataNode:分布在廉价的设备上,用于存储数据块,提供具体的数据存储服务,执行数据块的读写操作。
1.2 MapReduce概述及处理框架
MapReduce是一个从海量源数据提取分析元素并返回结果集的编程模型,可以进行大量数据的计算任务可以被分解为多个子任务,这些子任务相对独立,相互之间不会有影响,可以并行处理,处理完这些子任务后,任务处理完成。可解决海量数据的处理问题:如:Top K、频率统计、倒排索引构建(用于关键词搜索)等问题。
2 压缩算法介绍
Hadoop可自动识别压缩格式,压缩文件有相应的压缩格式的扩展名(如gz、bz2、lzo等),Hadoop会根据压缩格式的扩展名自动选择相对应的解码器来解压数据,该过程由Hadoop自动处理。一般来说,根据应用的具体情况来决定所使用的压缩格式,如速度更快、空间最优、压缩比高等不同策略,通过具有代表性的数据集进行测试,找到最佳方案。
Gzip压缩(*.gz):Hadoop中内置支持的一种压缩方式,该压缩方式在Linux的开发人员和管理员中使用的比较广泛,压缩比较高,压缩/解压速度较快。在应用中处理Gzip格式的文件就和直接处理文本一样。Gzip压缩有一定的局限性,由于其算法本身的原因,无法对Gzip压缩文件进行分块。
Bzip2压缩(*.bz2):
原创力文档


文档评论(0)