- 1、本文档共7页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于海量日志的入侵检测并行化算法研究.doc
基于海量日志的入侵检测并行化算法研究
摘 要: 随着计算机技术和互联网的迅猛发展,对海量日志进行分析并进行入侵检测就成为重要的研究问题。针对这一现象,提出在Hadoop平台下利用并行化的数据挖掘算法对海量的日志信息进行分析从而进行入侵检测,然后利用搭建好的Hadoop集群环境对其进行验证,对不同大小的日志文件进行处理,并与单机环境下对比,证明在该平台下进行入侵检测的有效性和高效性,同时实验证明如果增大集群中的节点数目,执行效率也会相应的提高。
关键词: Hadoop; 日志信息分析; 入侵检测; 并行化算法
中图分类号: TN915.08?34; TM417 文献标识码: A 文章编号: 1004?373X(2016)19?0071?05
Abstract: With the rapid development of computer technology and Internet, how to analyze the massive logs and perform the intrusion detection become the important research contents. To soleve these difficulties, the parallel data mining algorithm is used to analyze the massive logs information on Hadoop platform, so as to perform the intrusion detection. The established Hadoop cluster environment is used to verify the intrusion detection, and process the log files with different sizes. In comparison with the intrusion detection result verified in the stand?alone environment, the effectiveness and efficiency of the intrusion detection on Hadoop platform were verified. And the experiment results verify that if the node quantity in the cluster is increased, the execution efficiency will be improved accordingly.
Keywords: Hadoop; log information analysis; intrusion detection; parallel algorithm
0 引 言
随着信息技术的迅猛发展以及Web应用的快速普及,许多企业都拥有独立的Web服务器,然而其开放的特性也带来了不可忽视的安全问题。数量庞大的Web服务器以及层出不穷的应用安全漏洞为黑客和蠕虫攻击提供了可乘之机[1]。
在Web日志中有应用是如何被访问的数据记录,对这些日志的分析不仅可以发现入侵的痕迹,而且可以通过对攻击方法的分析找出系统中存在的安全漏洞进而采取安全措施对该种类型的攻击进行防范。对应用进行攻击与进行合法的操作产生的日志信息相似度是非常高的,如果单纯依靠人工进行辨别,对工作人员的知识丰富程度和工作经验都有极高的要求[2]。同时,Web应用产生的日志信息数量是极其巨大的。因此,采用一定的入侵检测技术来保护应用系统,帮助其对抗各种类型的入侵攻击行为是十分重要的。
1 基于Hadoop海量日志的入侵检测算法
1.1 改进的并行化K?Means算法
K?均值(K?Means Clustering)算法是最著名的划分聚类算法,因为它具有简洁和效率高的特性,是所有聚类算法中最频繁地被使用的。一般情况下,K?Means算法的应用会局限在数据量较小的数据集中,然而,本文主要针对的是海量的数据集,传统的K?Means算法并不能满足研究的要求。为了能够让其更好地对海量数据进行处理,需要研究在Hadoop平台下对K?Means算法进行并行化的改进。为了提高整体的效率,对Hadoop的Mahout项目中已经实现的并行化K?Means算法[3]进行了研究,并在其基础上进行了改进,提出了一种对Combiner中的计算方法进行修改的CPK?Means(Combined Parallel K?Means)算法。主要的改进是为了提高计算效率,在Combiner
您可能关注的文档
- 基于大数据的医院数据中心建设思考.doc
- 基于大数据的国土资源综合监管系统设计与实现.doc
- 基于大数据的图书馆移动信息服务创新研究.doc
- 基于大数据的智慧公交出行云平台.doc
- 基于大数据的智能停车场管理系统设计.doc
- 基于大数据的未来智慧家庭系统.doc
- 基于大数据的消防产品评价系统.doc
- 基于大数据的电费风险管控平台.doc
- 基于大数据的科技情报研究技术分析.doc
- 基于大数据的高校宣传思想工作模式创新研究.doc
- DB44_T 2611-2025 城市排水管网有毒有害气体监测与风险分级管理技术标准.pdf
- DB44_T 2612-2025 竞赛类科普活动策划与实施服务规范.pdf
- DB43_T 2947-2024 烟草种子质量控制规程.pdf
- DB37_T 4836-2025 煤矿风量实时监测技术要求.pdf
- 叉车防撞系统,全球前22强生产商排名及市场份额(by QYResearch).docx
- 超滤膜,全球前18强生产商排名及市场份额(by QYResearch).docx
- DB62T 4172-2020 玉米品种 酒623规范.pdf
- DB62T 4160-2020 在用真空绝热深冷压力容器综合性能在线检测方法.pdf
- DB62T 4164-2020 辣椒品种 酒椒1号.pdf
- DB62T 4133-2020 公路隧道地质超前预报机械能无损探测技术规程.pdf
文档评论(0)