基于Hadoop高校日志分析应用架构研究.docVIP

下载本文档

16
0
约4.33千字
约 9页
2018-08-31 发布于福建
举报
版权申诉

基于Hadoop高校日志分析应用架构研究.doc

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Hadoop高校日志分析应用架构研究

基于Hadoop高校日志分析应用架构研究　　摘要：随着信息化的建设，高校管理系统越来越多，通过查看分析系统日志可以监测系统状态，调查系统故障，更好地保证系统的正常运行。但由于日志数据量巨大，不易被读懂，无法通过人工分析挖掘出有价值的信息。分布式计算的出现，为解决这一难题提供了思路。Hadoop用于构建分布式存储开源框架，通过部署在上面的MapReduce程序，广泛地应用于处理海量的数据。结合具体问题，文章设计了基于Hadoop的高校日志分析系统，并深入分析了该系统的业务处理流程和系统功能框架。通过对实验结果的分析，证明了系统是有效的和有价值的。　　关键词：日志分析；Hadoop；集群；分布式计算　　中图分类号：TP393 文献标志码：B 文章编号：1673-8454（2015）16-0082-03 　　一、引言　　计算技术的不断发展带动着高校信息化建设的深入，为了实现信息化教学管理，各大高校采用越来越多的系统。与此同时，系统需求复杂程度也越来越高，为了使这些系统能够正常运行，以及保证其安全性和可扩展性，查看日志已经成为一项重要的途径。通过分析日志数据，可以获取许多有价值的信息，如设备故障、网络运行历史背景、网络异常行为等方面的信息。[1] 　　但由于这些日志数据量大，且不易被读懂，利用传统的技术进行分析，在存储和计算量上都会遇到很大的困难，难以挖掘出对改进用户体验和提升管理水平都非常具有价值的信息，分布式计算技术恰好可以很好的解决这个问题。[2] 　　Hadoop作为当前流行的处理大数据的平台，近年来备受业内关注，因此得到了快速的发展，在网页搜索、日志分析、广告计算和科学实验等领域中出现了许多相关应用[3-5]。著名电商网站淘宝网拥有3000个节点的Hadoop集群，如此大规模的集群为它的日常运营做出了关键支撑。除此之外，Facebook、百度、Yahoo等众多互联网巨头也都在使用Hadoop。[2] 　　基于Hadoop 技术的特点，可以用它来存储高校的日志数据，并开发相应的算法对这些数据进行挖掘分析，提高高校对这些日志数据的利用价值。本文以高校日志分析系统为例，介绍了Hadoop在海量日志分析中的应用架构。　　二、Hadoop介绍　　Hadoop是Apache开发的开源的MapReduce集群实现。Hadoop的核心包含两部分，分别是Hadoop分布式文件系统（HDFS）和在此之上的MapReduce编程模型实现。Hadoop分布式文件系统（HDFS）是一个适合运行在通用硬件和大规模数据集上的分布式文件系统。而MapReduce是一种分布式编程模型，用于大规模数据集的并行计算，编程人员不用考虑分布式并行编程的具体实现，就能开发出分布式计算程序。HDFS和MapReduce的关系如图1。　　每个HDFS采用Master/Slave架构，主要有四个组成部分：客户端（Client）、元数据节点（NameNode）、副元数据节点（Secondary NameNode）和数据节点（DataNode）。一个HDFS集群只包含一个元数据节点，元数据节点存储整个分布式文件系统的元数据信息，此外，还负责监控数据节点是否正常，如果出现异常情况，就将其从整个文件系统中删除。副元数据节点负责定期整理元数据节点中的文件，为其分担一部分工作，提高对内存资源的利用率。数据块的实际存储由数据节点负责，包括数据的读写，并定时向元数据节点汇报存储块的信息。[6] 　　MapReduce是一个把数据集的大规模操作分发给每个节点，从而实现并行计算的编程模型。MapReduce提供了简洁的编程接口，对于某个计算任务来说，其输入的是键值对，输出也以键值对的方式表示。MapReduce中的Map函数将用户的输入数据以键值对形式通过用户自定义的映射过程转变为同样以键值对形式表达的中间数据。而Reduce过程则会对中间生成的临时中间数据作为输入进行处理，并输出最终结果。[6] 　　三、系统架构　　基于Hadoop的高校日志分析系统的日志处理流程主要由存储、分析和显示三个部分构成[1]，如图2所示。在存储阶段，日志服务器负责接收日志源提供的日志，并将这些数据按照顺序存放在数据库或者文件中，之后再转储到Hadoop集群中，进行必要的数据归并和清洗，以便后续的分析处理；在分析阶段，MapReduce程序需在Hadoop集群中运行，按指定条件查询或挖掘日志数据，获得期望的信息；为了把这些信息进行归并和转换，日志分析结果仍然以文件形式存储在Hadoop集群中，经过专门的处理后，最后的结果以可视化的形式显示给用户。　　根据上述的日志分析流程，为了实现功能需求，可将基于Hadoop的高校日志分析系统的逻辑架构方案设计如图3所示。