基于大数据技术日志统计及探析系统探究.docVIP

下载本文档

23
0
约4.47千字
约 8页
2017-06-13 发布于福建
举报
版权申诉

基于大数据技术日志统计及探析系统探究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于大数据技术日志统计及探析系统探究

基于大数据技术日志统计及探析系统探究　　摘要：随着大数据时代的来临，网络数据呈现爆炸式增长，IDC数据表明，全球企业数据正以62%的速度逐年增长，大量数据当中隐藏着巨大的商业价值，引起了企业的广泛关注。然而，大数据给数据的同步、存储、和数据统计分析带来了一定的问题和困难。本文旨在实现基于大数据技术的日志统计分析系统，解决了现有的工具逐渐无法有效的处理大量数据的问题。本文在对此系统进行需求分析的基础上，设计了以多个分布式集群为基础，数据源层、存储层、计算层相互融合的体系结构，设计并实现了日志数据转码、日志传输、自动识别新文件的产生、日志存储、数据查询的功能。日志数据转码对于GBK格式编码的日志进行格式转换；日志传输提供数据从不同终端到储存系统的数据收集、聚合和移动，以便模拟生产环境中数据实时产生的过程；自动识别新文件的产生，不同模块之间完成通信加载数据功能。本文综合使用了大数据生态圈的各种开源技术，包括Hadoop、Flume NG、Kfaka、Sqoop、Hive、MySQL。从日志数据的收集同步，到日志的存储和计算分析，到最终分析结果的查询，涵盖了使用大数据技术进行日志统计分析的典型流程。本文使用开发语言Java和shell脚本语言，开发工具为IntelliJ IDEA，VIM。在多台CentOS6.5机器之上搭建集群，进行分布式存储和计算。用户通过统计分析系统进行日志同步、传输、任务提交和调度、结果查询等操作关键词：大数据；网络数据；日志统计分析；流程自动化中图分类号：TP311 文献标志码：A 文章编号：1009-3044（2016）34-0009-03 1 概述搜索引擎的日志文件是由使用者的搜索行为产生的，是对用户在终端行为的一种记录。通过对日志文件的分析可以获得很多有价值的数据，可以对不同用户的个性进行更加全面的分析，实现更加个性化的推荐方案。随着时间的推移，网站的用户访问量快速增长，搜索引擎产生的日志数据快速增长。传统的日志分析方式已经无法满足大数据量日志分析的需求，使用大数据技术可以为日志分析设计一整套自动化流程包括从数据采集，传输，存储，计算和查询，这种方式可以使得数据的处理过程更加高效 2 集群概述本系统为了模拟真实线上搜索日志产生的情况，使用脚本语言模拟连续生成的日志数据，通过Flume集群进行实时的采集。Flume采集到数据之后，使用Kafka集群对数据进行消费，将数据先存入到HDFS文件系统中。搭建Hive集群使用HQL语句对数据进行过滤分析。使用Sqoop工具把Hive中的数据导入到MySQL提供实时查询目标日志是由搜狗实验室提供的用户查询日志。下面是访问日志中一条典型记录： 00：00：01 0014362172758659586 [明星合成] 64 21 / ?@行内容由6项构成：1）访问时间。2）用户ID。3）查询词。4）该URL在返回结果中的排名。5）用户点击的顺序号。6）用户点击的URL。其中，用户ID是根据用户使用浏览器访问搜索引擎时的Cookie信息自动赋值，即同一次使用浏览器输入的不同查询对应同一个用户ID 3 系统的设计与实现 3.1 系统的基本目标利用分布式的架构对模拟生产环境下实时产生的用户查询日志进行采集，传输和存储，按查询过滤条件对日志数据进行分析 3.2 集群部署 3.2.1 Hadoop部署图1介绍了Hadoop集群部署的架构，包含一个主控节点namenode和两个从节点node主要职责是跟踪文件如何被分割成文件块、文件块又被哪些节点存储、以及分布式文件系统的整体运行状态是否正常等工作。ResourceManager负责集群中所有资源的统一管理和分配，它接收来自各个节点（NodeManager）的资源汇报信息，并把这些信息按照一定的策略分配给各个应用程序。SecondaryNamenode定时查询namenode节点中集群启动时对文件系统的改动序列，并保持同步；然后将得到的信息更新到namenode节点文件系统快照文件中。Nodemanager管理Hadoop集群中单个计算节点，包括与ResourceManager保持通信，监督任务的生命周期管理，监控每个任务的资源使用，追踪节点健康状况，管理日志和不同应用程序用到的附属服务 3.2.2 Flume部署 Flume本身不限制Agent中Source、Channel和Sink的数量。因此Flume Source可以接收事件，并可以通过配置将事件复制到多个目的地。如图2所示，可以将事件发送到多个Kafka终端，进行分布式的处理过程 3.2.3 Kafka部署图3介绍了Kafka集群部署的基本架构，Produ