- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
基于半监督学习的Web安全事件检测模型
贾晨
【摘要】Web应用高速发展的同时产生了大量安全漏洞,导致Web服务器易遭受
网络攻击.本文以大数据环境下发现Web日志中的安全威胁为业务需求,针对传统
技术检测Web攻击行为的不足之处,提出一种基于半监督学习的Web安全事件检
测方法,发现Web日志安全威胁,该方法在使用较少标签数据、减少人工标注成本
的同时能够达到较高的准确率.
【期刊名称】《江苏通信》
【年(卷),期】2019(035)002
【总页数】4页(P41-44)
【关键词】网络攻击;大数据;网络安全;半监督学习;检测模型
【作者】贾晨
【作者单位】国家计算机网络与信息安全管理中心江苏分中心
【正文语种】中文
0引言
随着互联网技术以及相关产业的发展,互联网已经成为当今社会最重要的基础设施
之一,影响着生活中的方方面面。与此同时,针对Web应用服务器的网络攻击也
越来越多,网络安全问题逐渐受到人们的关注。攻击者通过Web攻击达到窃取隐
私信息、篡改数据的目的,对社会产生了严重危害。Web攻击主要是针对URL上
的漏洞进而构建相关攻击载荷实现的。目前的检测手段主要是人工分析URL,通
过提取相关特征并构建特征集来识别Web攻击。但是Web攻击技术伴随着互联
网技术的发展也在不断提高,攻击者精心构造出各种复杂的攻击载荷,传统检测手
段容易被绕过,简单的特征集已经不能满足有效识别Web攻击的需要。另外,特
征集的构造也变得更加复杂,人力成本和维护成本高,检测效果一般,因此存在很
大的提升空间。针对传统检测手段遇到的瓶颈问题,越来越多的研究人员开始借助
机器学习来完善检测技术,取得了不错的效果。
1研究背景
近年来,使用基于机器学习的方式进行Web攻击检测取得了一定的成果。可以利
用ⅠD3算法在训练阶段构建一棵决策树用以分类检测Web攻击,但ⅠD3算法对
取值较多的特征属性会有偏向,从而影响检测结果和检测率。又有一种基于自适应
性的Web攻击异常检测方法被提出,使用多隐马尔可夫模型对HTTP请求样本进
行分类处理,并根据分类样本集的离散性分析,自适应地发现攻击行为,这种方法
的缺点是需要较长时间的学习。还有人提出一种基于确定有限自动状态机语法
(DFA)的方法,该方法的基本思想是:正常的网络访问数据会符合一定的语法规
则,而攻击行为则与正常语法规则不符,进而通过学习正常数据样本的特征规则构
建基于DFA的语法模型用于检测Web攻击。NMSheykhkanlo对SQL注入的
类别进行了研究,在其论文中提出了7种SQL注入形式,分析总结出每种SQL注
入中具有代表性的SQL注入符号,然后把这些符号组合在一起构建特征向量,最
后利用神经网络(NN)对其分类。由于神经网络需要的训练数据量较大且负责计
算的神经元数量较多,导致训练时间过长,且模型提取的特征较为单一,因此该方
法存在一定局限性。ⅠCorona通过隐马尔可夫模型(HMM)对Web应用程序
的输入组成序列进行检测,发现应用程序的已知或未知攻击,但是需要较长时间的
学习。
上述方法尽管不需要维护复杂的规则集,但仍避免不了人工设计特征,一旦出现变
种攻击,则原有特征便可能失效,因此具有一定局限性。此外,由于大多数采用了
监督学习的方法,需要大量的样本数据,而在安全领域样本数据较为稀少,大量的
数据标注又会增加人力成本。
针对上述存在的问题,本文在对以往的方法进行研究后,提出一种基于半监督学习
的Web安全事件检测模型。
2模型
本文提出的模型主要分为三个部分:数据预处理、数据特征提取、分类器。由于
Web攻击载荷的构建基于URL文本内容中的相关参数,所以模型借鉴了自然语言
处理中的文本分类思想,提取URL的文本特征和语义特征作为特征向量用于后续
分类。分类器主要负责对提取的特征进行分类,识别出Web攻击。模型的整体结
构图如图1所示。
图1模型架构图
2.1数据预处理
(1)规范化
URL参数中会包含一些数字和超链接,为减少后续计算量,模型对数字和超链接
进行规范化处理,即:使用数字0代替参数部分的数字,使用http://u简化超链
接。
(2)分词
URL特征提取前还需要对URL进行分词处理,构造URL的词序序列。通过研究
URL文本中攻击载荷的构造方式,确定以下分词规则:
1)单双引号包含的内容;
2)http/htt
文档评论(0)