- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于随机森林HTTP异常检测
基于随机森林HTTP异常检测 摘要:在互联网日益强大的今天,网络安全问题已经尤为重要,如何能够精准找到网络中的攻击行为具有重要的价值。基于该目标,该文提出了基于HTTP流量数据的异常检测模型,以随机森林为核心算法,围绕该算法提出了一种HTTP流量数据生成策略以及检测方法
关键词:随机森林;HTTP异常检测;数据生成
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2017)05-0031-03
1 HTTP异常数据生成策略
对于HTTP流量数据的异常行为检测,一个难点就在于如何定义正负样本也就是正常的HTTP行为和异常的HTTP行为。现阶段,普遍的做法是通过网络异常检测软件来对每个有风险的IP点进行检测,这种做法一方面并不能得出准确的结果另一方面也很难发现新的异常IP点。基于这点,本文提出了一种是用数据生成策略并基于聚类结果的随机森林检测模型[1]
1.1 问题提出
对于HTTP流量数据可以通过聚类算法得出一些离群点,对于这些离群点使用集成的方式可以得出不同类型的IP点,例如将离群点当做具有潜在异常行为的IP点,将非离群点当做正常的IP点,将部分聚类算法认为是离群点的当做疑似点。通过聚类算法虽然可以出来部分具有异常行为的IP点,但是从整体的量上来说,离群点只占了整个HTTP流量数据中很少的一部分。原始数据中可能还存在着大量具有异常行为的IP点[2]
对于原始的HTTP日志数据来说,进行异常行为检测的难点在于问题的本身是一个无监督的问题,没有给定的标签来指定什么样的IP点是正常的,什么是异常的。这使得很难对提取的特征数据进行分类的算法,基于这点不得不选择无监督的聚类算法。通过聚类算法得出了一些离群点,然后通过集成的方法将离群点分成3类,即异常点,疑似点,正常点。有了这些的基础,对与异常行为检测这个正负样本分类问题,将原本无监督的样本集分成了3个类别,即有较大可能是负样本的异常点集合,有可能是负样本的疑似点集合,正样本则对应着正常点集合。基于这种划分规则,便可将原本的无监督的问题转换成一个半监督问题[3]
对于分类算法来说,一个重点就在于正负样本的选择,通过分析得知正样本的数量很丰富,但是相对来说负样本的数量却远远不够,由于聚类算法得出的异常点和疑似点数量都比较少,所以要进行分类算法首先需要对数据样本就行增强。如何选择一种合适的数据增强策略改善这种不均衡的数据分布成为分类准确性的关键所在
分类算法第二个重点在于如何选择合适的分类器,目前已经有很多种经典分类算法,由于数据本身的无监督性,以及由聚类分析的不同特征的重要程度具有明显差别,这里需要综合考虑这些因素选择最合适的分类器[2]
1.2 数据均衡问题解决
数据样本是否均衡对最终的分类结果可能会产生很大的影响,对于服务器端IP点来说得到的异常点一共有20个,疑似点有724个,正常点有279025个。这是一个极不均衡的样本分布。假设把异常点和疑似点都算作负样本,那也仅仅只有760个样本点,这远远不够的。为了解决数据均衡问题,基于异常点和疑似点我对负样本进行了随机的生成,策略如下:
对于异常点,通过聚类集成方法的分析已经证明了它们的异常行为的可靠性,所以要充分利用这些异常IP点的特征数据进行更多负样本的生成。由于每一个异常IP点的特征数据都具有7个特征,它们具有的异常行为,可能是这7个特征中一个或者某几个发生了明显的数值上的变换,基于这点,在生成新的异常特征数??时,对每一个异常点的7个特征都需要进行不同的变换,由异常点的特征数据发现,不同的异常IP点之间在7个特征上数据变化幅度较大,尤其表现在和连接数量相关的特征上,而与URI和COOKIE相关的特征的变化虽然趋于平缓,但整体仍具有浮动现象。基于这点以及异常行为潜在的多变性。我选择对特征数据进行随机的变换,将每一个异常IP点的每一个特征的取值随机映射到原始值的0.8-1.2倍之间,选择这个区间是因为,为了保证生成的数据尽可能地具有异常行为所以只选择了较小的变换范围,目的是保留住这些异常行为的数据特征,对于不同的映射区间下节会有详细的分析。并且保证7个特征都是随机进行特征数据的生成在这个区间上。例如异常点的原始数据如下:
由于这些异常点有着极大的可能伴随着异常行为,而可利用的异常点的数量又非常少,所以这里我选择对每一个异常点都按照这样的规则随机生成了100个负样本
对于疑似点,虽然这些点伴随着的异常行为的可能性没有异常点那么高,但是它们都是由聚类算法得出的离群点组成的。由离群点的特性可以得知,这些疑似点相比于正常点仍在某些特征上具有潜在的异常行为,并且疑似点的数量相比于异常点要多得多,这一方面可以很大程度丰富负样本的多样性不至于像异常点生成的
文档评论(0)