基于半监督学习的Web安全事件检测模型.pdfVIP

下载本文档

1
0
约5.3千字
约 8页
2024-04-23 发布于山东
举报
版权申诉

基于半监督学习的Web安全事件检测模型.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于半监督学习的Web安全事件检测模型

贾晨

【摘要】Web应用高速发展的同时产生了大量安全漏洞,导致Web服务器易遭受

网络攻击.本文以大数据环境下发现Web日志中的安全威胁为业务需求,针对传统

技术检测Web攻击行为的不足之处,提出一种基于半监督学习的Web安全事件检

测方法,发现Web日志安全威胁,该方法在使用较少标签数据、减少人工标注成本

的同时能够达到较高的准确率.

【期刊名称】《江苏通信》

【年(卷),期】2019(035)002

【总页数】4页(P41-44)

【关键词】网络攻击;大数据;网络安全;半监督学习;检测模型

【作者】贾晨

【作者单位】国家计算机网络与信息安全管理中心江苏分中心

【正文语种】中文

0引言

随着互联网技术以及相关产业的发展，互联网已经成为当今社会最重要的基础设施

之一，影响着生活中的方方面面。与此同时，针对Web应用服务器的网络攻击也

越来越多，网络安全问题逐渐受到人们的关注。攻击者通过Web攻击达到窃取隐

私信息、篡改数据的目的，对社会产生了严重危害。Web攻击主要是针对URL上

的漏洞进而构建相关攻击载荷实现的。目前的检测手段主要是人工分析URL，通

过提取相关特征并构建特征集来识别Web攻击。但是Web攻击技术伴随着互联

网技术的发展也在不断提高，攻击者精心构造出各种复杂的攻击载荷，传统检测手

段容易被绕过，简单的特征集已经不能满足有效识别Web攻击的需要。另外，特

征集的构造也变得更加复杂，人力成本和维护成本高，检测效果一般，因此存在很

大的提升空间。针对传统检测手段遇到的瓶颈问题，越来越多的研究人员开始借助

机器学习来完善检测技术，取得了不错的效果。

1研究背景

近年来，使用基于机器学习的方式进行Web攻击检测取得了一定的成果。可以利

用ⅠD3算法在训练阶段构建一棵决策树用以分类检测Web攻击，但ⅠD3算法对

取值较多的特征属性会有偏向，从而影响检测结果和检测率。又有一种基于自适应

性的Web攻击异常检测方法被提出，使用多隐马尔可夫模型对HTTP请求样本进

行分类处理，并根据分类样本集的离散性分析，自适应地发现攻击行为，这种方法

的缺点是需要较长时间的学习。还有人提出一种基于确定有限自动状态机语法

（DFA）的方法，该方法的基本思想是：正常的网络访问数据会符合一定的语法规

则，而攻击行为则与正常语法规则不符，进而通过学习正常数据样本的特征规则构

建基于DFA的语法模型用于检测Web攻击。NMSheykhkanlo对SQL注入的

类别进行了研究，在其论文中提出了7种SQL注入形式，分析总结出每种SQL注

入中具有代表性的SQL注入符号，然后把这些符号组合在一起构建特征向量，最

后利用神经网络（NN）对其分类。由于神经网络需要的训练数据量较大且负责计

算的神经元数量较多，导致训练时间过长，且模型提取的特征较为单一，因此该方

法存在一定局限性。ⅠCorona通过隐马尔可夫模型（HMM）对Web应用程序

的输入组成序列进行检测，发现应用程序的已知或未知攻击，但是需要较长时间的

学习。

上述方法尽管不需要维护复杂的规则集，但仍避免不了人工设计特征，一旦出现变

种攻击，则原有特征便可能失效，因此具有一定局限性。此外，由于大多数采用了

监督学习的方法，需要大量的样本数据，而在安全领域样本数据较为稀少，大量的

数据标注又会增加人力成本。

针对上述存在的问题，本文在对以往的方法进行研究后，提出一种基于半监督学习

的Web安全事件检测模型。

2模型

本文提出的模型主要分为三个部分：数据预处理、数据特征提取、分类器。由于

Web攻击载荷的构建基于URL文本内容中的相关参数，所以模型借鉴了自然语言

处理中的文本分类思想，提取URL的文本特征和语义特征作为特征向量用于后续

分类。分类器主要负责对提取的特征进行分类，识别出Web攻击。模型的整体结

构图如图1所示。

图1模型架构图

2.1数据预处理

（1）规范化

URL参数中会包含一些数字和超链接，为减少后续计算量，模型对数字和超链接

进行规范化处理，即：使用数字0代替参数部分的数字，使用http://u简化超链

接。

（2）分词

URL特征提取前还需要对URL进行分词处理，构造URL的词序序列。通过研究

URL文本中攻击载荷的构造方式，确定以下分词规则：

1）单双引号包含的内容；

2）http/htt

您可能关注的文档

文档评论（0）

182****3561 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

基于半监督学习的Web安全事件检测模型.pdfVIP