基于Hadoop下利用Hive进行网络日志存储和分析.docVIP

下载本文档

3
0
约4.6千字
约 8页
2017-08-24 发布于北京
举报
版权申诉

基于Hadoop下利用Hive进行网络日志存储和分析.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Hadoop下利用Hive进行网络日志存储和分析　　摘要随着网络应用的普及和网络的深入发展，网络上传输的数据量越来越大，在网络安全管理方面要求越来越严格，如何有效的存储、查询、分析海量的网络日志就成了网络安全管理方面的新挑战。云计算技术的完善和普及，为解决这类问题提供了新的方法，云计算机就是通过网络系统将多台计算机组成一个分布式系统，从而完成海量数据的存储和计算。Hadoop是一个用于构建云计算机平台的开源系统，为了存储和分析这些海量的数据，可以利用Hadoop分布系统下对网络日志的存储、查询、分析，通过该系统的应用可以节约存储成本、提高查询效率，为网络的安全管理、网络优化提供数据支持。　　【关键词】Hadoop 大数据 Hive 　　1 引言　　随着网络应用的深度普及，人们在学习、工作、生活越来越离不开网络，所以在网络的运行过程中，会产生海量的网络日志，如何通过海量的日志，来分析用用户上网行的特点，为校园网络的优化、网络安全、提供科学决策的依据，我们首先要解决的问题是如何存存储、查询、分析这些大数，如果用传统的单一节点的计算机能力来处理这些海量的数据已经不能满足需求。利用云计算技术，通过一定的算法，可以把这些大数据进进行清洗、存储、分析，为校园网络安全运行提供数据支持，本文通过Hadoop系统，实现了基于Hive数据仓库的网络日志行为的存储和分析。　　2 主要相关技术　　2.1 hadoop系统　　Hadoop是应用于大规模数据的开发和运行处理的软件平台，是Appach的一个用java语言实现开源软件框架，实现了在大量计算机组成的集群中对海量数据进行分布式计算，Hadoop框架中最核心设计就是：HDFS和MapReduce，HDFS提供了海量数据的存储，MapReduce提供了对数据的计算。　　2.2 Hive数据仓库　　Hive是运行于Hadoop下的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。Hive 的本质是将SQL转换为MapReduce程序，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行。并按照该计划生成MapReduce任务后交给Hadoop集群处理，Hive的体系结构可以分为以下部分：　　（1）用户接口，Hive主要有三个用户接口，分别为：命令接品（CLI）、Jdbc/Odbc接口、WEB接口。　　（2）Hive将元数据存储在数据库中，如mysql， Hive中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。　　（3）解释器、编译器、优化器完成HQL查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在HDFS中，并在随后有MapReduce调用执行。　　（4）Hive的数据存储在HDFS中，大部分的查询、计算由MapReduce完成， Hive将元数据存储在RDBMS中。　　3 存储和分析网络日志　　3.1 利用hive存储网络日志　　3.1.1 数据采集及格式　　测试的数据来源于校园网络用户上网行为记录的日志，该日的特点是实时记录了认证用户访问网络的行为，记录数据量非常大，每天将近有30G，每条记录包含如下信息：流水号、访问时间、访问的目标url或IP、登录账号、源MAC、源IP、目标端口、访问类型、访问目标IP、源端口，其格式为TXT文件，日志记录的信息可以分析校园网络的运行情况、用户上网行为特点及网络舆情的监控。　　3.1.2 数据的存储　　用户在校园网络上每一个动作都会产生一条记录，所以经过长时间的网络运行，这些海量的数据查?存储就成为一个必须解决的问题，如果用传统的数据库如：MSsql、mysql、orc等，就显得力不从心.如果这些数据不加以分析利用，就失去了它的价值，根据Hive的特点，可以将网络日志存储在Hive数据仓库中，利用Hadoop分布式计算提高数据的运算速度，其存储的过程设计如图1所示。　　整个流程的工作过程：　　（1）原始记录获取，可以通过网关设备或认证服务器获取原始数据，在原始的数据中包含了许多干扰的数据，所以必须对数据进行处理。　　（2）数据清洗，我们可以利简单的python脚本语言进行数据的清洗，提取对我们分析数据有用的信息，如用户账号、登时间、注销时间、在线时长、源IP地址、源MAC地址、目标IP、访问类型等，经过清洗的数据大小只是原来的二分之一，把原始数据分别存为两个hive能够导入的TXT文件，这两个文件分别存有用户登陆校园网络的信息和用户访问网络行为记录。　　（3）建立hive数据仓库，可以使用