基于HadoopHive气象数据分布式处理研究.docVIP

下载本文档

104
0
约5.31千字
约 11页
2018-08-28 发布于福建
举报
版权申诉

基于HadoopHive气象数据分布式处理研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于HadoopHive气象数据分布式处理研究

基于HadoopHive气象数据分布式处理研究　　摘要：分布全球的气象传感器每隔一段时间就会收集大量的气象数据，历史气象数据更为庞大，如何存储和处理这些数据已成为一个难题。Hadoop的出现给人们提供了存储和分析大数据的一个利器，它利用HDFS分布式文件系统进行大数据存储，用户通过编写MapReduce程序完成大数据的分析处理。然而，对于很多用户而言，熟练掌握Java语言并编写MapReduce程序并不容易。鉴于此，利用Hive来存储和处理气象数据集。Hive是构建在Hadoop上的数据仓库框架，它支持SQL接口，可以让精通SQL技能的分析师对存放在HDFS中的大规模数据集进行查询分析。　　关键词：大数据；Hadoop；HDFS；Hive 　　DOIDOI：10.11907/rjdk.151393 　　中图分类号：TP301 　　文献标识码：A 文章编号文章编号2015）008001103 　　作者简介作者简介：陈效杰（1989-），男，山东临沂人，山东科技大学信息科学与工程学院硕士研究生，研究方向为云计算、大数据；张金泉（1972-），男，四川南充人，博士，山东科技大学信息科学与工程学院副教授、硕士生导师，研究方向为Petri理论及应用。　　0 引言　　人们生活在数据大爆炸时代，国际数据公司（IDC）曾经发布报告称，2006年数字世界项目统计得出全球数据总量为0.18ZB，面对数据的爆炸式增长，大数据的存储和处理显然也面临着巨大挑战[1]。Hadoop的出现为人们提供了一个可靠的共享存储和处理分析系统，使人们在存储和分析大数据时更加高效，其HDFS分布式文件系统可以实现数据的分布式存储[2]。MapReduce给出一个编程模型，该模型抽象出这些硬盘的读写问题并将其转换为对一个数据集的处理计算，HDFS和MapReduce是Hadoop的两个核心。　　使用Hive对气象数据集进行分析主要是基于如下考虑：①分布在全球各地的气象传感器每隔一个小时收集气象数据并产生大量的日志数据，由于数据量十分巨大，用单机处理气象数据耗时太多，因此人们考虑使用搭建Hadoop的集群来处理这些数据，这些数据通常是半结构化并且是按照记录方式存储，按行并以ASCII码格式存储，每一行是一条记录，因此非常适合编写MapReduce程序进行分析处理[2]；②对于大多数用户而言，熟练编写MapReduce程序不容易，所以人们将收集的气象数据导入到　　Hive的数据仓库中，利用Hive来处理这些气象数据。Hive是Hadoop下的项目，它是一种分布式、按列存储的　　数据仓库[3]。Hive管理HDFS中存储的数据，并提供SQL的查询语言（由运行时引擎翻译成MapReduce作业）用以查询数据。　　1 相关技术　　1.1 HDFS分布式文件系统　　当数据集的大小超出一台独立物理计算机的存储能力时，就有必要对它进行分区并存储到若干台独立的计算机上，管理网络中跨多台计算机存储的文件系统称为分布式文件系统。HDFS即Hadoop的一个分布式文件系统，即Hadoop Distributed FileSystem，HDFS以流式数据访问模式来存储超大文件，运行于商用硬件集群上。　　HDFS有两类节点，一类是namenode（管理者），另一类是datanode（工作者），namenode管理整个文件系统的命名空间，维护着文件系统树及树内的所有文件目录，并将这些信息永久保存在本地磁盘上，namenode也同时记录着每个块及各个块的数据节点信息。datanode负责文件系统中数据的实际存储，根据需要存储和检索数据块，并定期向namenode发送它们所存储块的列表，从而与namenode进行交互。HDFS用来存储底层数据，所有导入Hive中的数据最终都存储在HDFS中。　　1.2 Hive 　　Hive是一个数据仓库框架，它构建于Hadoop之上，其设计初衷是让熟悉SQL但Java编程技能相对较弱的用户能够对存放在HDFS中的大规模数据进行查询分析，它一般在工作站运行。它的本质是将查询分析命令转换为MapReduce程序实现作业运行[1]。因此，Hive的执行效率实际上比直接执行MapReduce程序要低。　　人们一般通过Hive外壳程序与Hive进行交互，安装完Hive后可以通过Hive shell方式进入外壳程序，在Hive中人们主要使用HiveQL语言。HiveQL是Hive的查询语言，它和SQL类似，精通SQL的用户可以很快熟悉HQL。　　Hive与传统数据库相比，有很多相似之处，比如它们都支持SQL接口，但其底层依赖于HDFS和MapReduce，所以两者之间也存在很多区别。在传统数据