- 1、本文档共30页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于Flume海量日志统一分析平台计算机信息管理自学考试
中南大学
高等教育自学考试毕业论文
论文题目:基于Flume的海量日志统一分析平台
报考专业:计算机信息管理(本)
考生姓名:
考 籍 号:
工作单位:
通讯地址及邮政编码:
联系电话: 手机:
电子邮箱 (Email):
2017年3月8日
目 录
1 引言 1
1.1 课题背景及意义 1
1.2 研究现状 2
1.3日志收集系统的发展趋势 2
1.4课题研究内容 4
1.5论文组织结构 4
2 Flume等技术介绍 4
2.1 Flume框架介绍 4
2.2 Kafka架构介绍 8
2.3 Storm架构介绍 9
2.4 ElasticSearch架构介绍 10
3 日志分析平台需求分析 11
3.1 日志分析平台设计目标 11
3.2日志分析平台需求 11
3.2.1日志采集模块Flume Agent的功能需求 12
3.2.2日志收集模块Flume Server的功能需求 12
3.2.3 日志统计模块Storm的功能需求 12
3.3日志分析平台运行环境需求 12
3.4本章小结 12
4 统一日志平台总体架构设计 13
4.1本章小结 13
5 统一日志平台具体实现 13
5.1 日志采集模块Flume Client的实现 14
5.1.1日志采集模块Flume Agent的具体实现 14
5.1.2日志采集模块Flume Agent的目录监控具体实现 14
5.1.3日志采集模块Flume Agent的数据保护机制 15
5.1.4日志采集模块Flume Agent与Flume Server的数据交互 16
5.1.5日志采集模块Flume Client配置项 17
5.1.6日志采集模块Flume Agent的读取Kafka内容具体实现 18
5.2 日志采集模块Flume Server的实现 20
5.2.1日志采集模块Flume Server日志归集实现 20
5.2.2日志采集模块Flume Server配置项 21
6 统一日志平台集成测试 22
结论 26
致谢 27
参考文献 28
摘 要
近年来,随着互联网信息技术的迅速发展,互联网上的日志信息资源已经达到海量级别,日志中包含了用户所有的规律信息,能够更加了解用户需求,为企业带来价值,以及包含业务链路数据,运维人员通过日志进行故障定位,以及故障分析,以及性能调优等工作,以及可以通过日志收集到KPI数据进行应用考核等。随着云计算、PaaS平台的普及,虚拟化、容器化等技术的应用,例如Docker等技术,越来越多的服务会部署在云端。通常,我们需要需要获取日志,来进行监控、分析、预测、统计等工作,但是云端的服务不是物理的固定资源,日志获取的难度增加了,但这又是工程师迫切需要的。,因此,如何应对海量并且分散的日志进行收集统计并且分析,已经成为目前大部分企业都特别关注的一个课题。
本文针对分布式环境下,通过Flume收集海量日志,进行ElasticSearch存储,Kibana可视化展示,Storm进行数据分析。
关键词 海量日志;Flume;ElasticSearch;kibana;Storm
引言
1.1 课题背景及意义
近年来,随着互联网信息技术的迅速发展,互联网上的信息资源已经达到海量级别,每天需要处理的日志信息巨大,日志中包含了用户所有的规律信息,能够更加了解用户需求,为企业带来价值,以及包含业务链路数据,运维人员通过日志进行故障定位,以及故障分析,以及性能调优等工作,以及可以通过日志收集到KPI数据进行应用考核等。随着云计算、PaaS平台的普及,虚拟化、容器化等技术的应用,例如Docker等技术,越来越多的服务会部署在云端。通常,我们需要需要获取日志,来进行监控、分析、预测、统计等工作,但是云端的服务不是物理的固定资源,日志获取的难度增加了,以往可以SSH登陆的或者FTP获取的,现在可不那么容易获得,但这又是工程师迫切需要的,最典型的场景便是:上线过程中,一切都在GUI化的PaaS平台点点鼠标完成,但是我们需要结合tail -F、grep等命令来观察日志,判断是否上线成功。当然这是一种情况,完善的PaaS平台会为我们完成这个工作,但是还有非常多的ad-hoc的需求,PaaS平台无法满足我们,我们需要日志,因此,如何应对海量并且分散的日志进行收集统计并且分析,已经成为目前大部分企业都特别关注的一个课题。
一般的数据挖掘是针对关系型数据库中结构化数据进行的分析。而如今日志数据杂乱无章,务结构,有中间件日志,有应用日志,有组件日志,应用日志因项目架构标准化不一而没有标准化,而且数据量还非常大,呈指数级不断增长,分布在非常多的服务器或者节点上,这就导致了数据挖掘需要用到新的挖掘技术,以及模型算法等,从需
您可能关注的文档
- 地方特色文化旅游商品再设计毕业设计论文.doc
- 城市边缘区生态景观规划研究——以苏州市为例.doc
- 城市道路工程标准化项目建设实施方案绿化工程;雨水工程污水工程及给水工程管道安装;电力工程电信工程燃气工程路灯工程交通工程土建及预埋工程.doc
- 在肝胆胰恶性肿瘤治疗中应用.pptx
- 城市轨道交通车辆转向架结构分析毕业设计论文.docx
- 培养品牌意识是一种重要管理思想 英文文献及翻译.doc
- 培养小学生科学探究能力论文.doc
- 培养良好行为策略 ——行为矫正技术.ppt
- 培养幼儿自我控制实验.ppt
- 培养高中学生技术素养策略和研究.doc
- 深孔钻项目风险分析和评估报告 .pdf
- 河北省沧州市渤海新区京师学校2022-2023学年九年级上学期期中数学试卷.pdf
- 消息范文200字XX年 .pdf
- 湖北省各地市2023-中考数学真题分类汇编-03解答题(提升题)知识点分类.pdf
- 湖北省襄阳市枣阳市2022-2023学年九年级上学期期末化学试题(含答案).pdf
- 河南省淮阳区羲城中学2022-2023学年化学九年级第一学期期中达标测试试 .pdf
- 浙江省杭州市上城区2024年九年级中考二模科学卷 .pdf
- 法学论文参考题目【各种论题大全】 .pdf
- 湖北省恩施土家族苗族自治州2022年数学九年级第一学期期末经典试题含.pdf
- 河北单招考试九类职业适应性测试考试题库含答案 .pdf
文档评论(0)