基于LSTM的卷积神经网络异常流量检测方法.docxVIP

下载本文档

170
0
约3.5千字
约 4页
2021-07-30 发布于广东
举报
版权申诉

基于LSTM的卷积神经网络异常流量检测方法.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于LSTM的卷积神经网络异常流量检测方法摘要：针对传统机器学习方法依赖人工特征提取,存在检测算法准确率低、无法应对0day漏洞利用等未知类型攻击等问题,提出一种基于卷积神经网络(Convolutional Neural Networks,CNN)和长短期记忆网络(LongShort Term Memory,LSTM)混合算法的异常流量检测方法,充分发掘攻击流量的结构化特点,提取流量数据的时空特征,提高了异常流量检测系统性能。实验结果表明,在CIC-IDS2017数据集上,多种异常流量检测的准确率均超过96.9%,总体准确率达到98.8%,与其他机器学习算法相比准确率更高,同时保持了极低的误警率。 0 引言信息技术的广泛应用和网络空间的兴起发展，极大促进了经济社会繁荣进步，同时也带来新的安全风险和挑战。网络安全威胁逐步从信息窃听、篡改、传播病毒等方式上升为更新颖的高强度DDoS攻击、0day漏洞利用、APT攻击等形式，造成的大规模数据泄露和网络黑产行业大规模增长严重危害信息系统运营者权益和用户个人隐私入侵检测迄今为止，国内外学者已提出了多种异常流量检测方法，目前主流的研究方向是基于机器学习或深度学习的方法。其中，段詠程等针对以上问题，本文提出一种基于深度学习的异常流量检测方法，利用卷积神经网络和长短期记忆网络的混合算法提取网络流量数据的时空特征，以提高入侵检测的准确率。并在CIC-IDS2017数据集上对算法进行验证测试。1 基于LSTM的卷积神经网络异常流量检测算法卷积神经网络的基本思路是通过提取图像中相邻像素之间相似的表达和特征，对输入向量进行卷积操作，以提取局部特征作为下一层的输入，通过逐层提取与组合，转化为抽象且全面的信息，是深度学习的代表算法之一。本文构建的异常流量检测算法，使用CNN和LSTM的组合在时间和空间上学习和分类流包，保留特征序列的顺序性特点，以层次化的时空特征更准确地识别流量特征。CNN部分由输入层+卷积层1+池化层1+卷积层2+池化层2+全连接层组成，向LSTM部分输出一个高维包向量。LSTM部分由LSTM层1+LSTM层2+全连接层和输出层组成。整体过程将高维包向量处理成一个表示属于每个分类概率的向量，最终由Softmax层输出最终结果。算法流程如图1所示。1.1 数据预处理数据预处理阶段的目标是将pcap格式的网络流量数据转化为卷积神经网络可运算的二维灰度图像，过程主要包括数据归一化、符号数据转换两个步骤。本文以会话(Session)为基本研究单元，其包含一组双方通信的数据包(Package)。数据归一化阶段首先将训练数据集提供的数据按攻击类型切分，使用pkt2flow工具按照攻击源IP和目的IP分割成相应的数据包，与源目互换后的数据包组合成时间序列的会话组。将按照会话分类的pcap文件切分为q个数据包后，每个数据包取前x个字节。符号数据转换阶段，以CIC-IDS2017数据集为例，官方已经为流量数据进行了特征提取，共产生Flow ID、Source IP、Source Port等80余条特征，以及正常或攻击类型标签。通过独热编码(One-Hot Encoding)，将每一组特征取值表示为y维向量，如此转化为q个x×y大小的二维图像。在时序特征提取阶段，每次输入的单元数量必须为固定值n。其中，切分数据包长度x和会话中数据包的数量n对算法效率和准确度影响较大，根据多次实验对比，取最佳数据包长度x=100，数据包数量n=8，该取值在多个测试数据集中具有普遍适用性。1.2 数据包空间特征提取基础的卷积神经网络由卷积(convolution)、激活(activation)和池化(pooling)三种结构组成。卷积层1使用带有小卷积核的卷积层来提取输入向量的局部特征，如协议类型和IP信息，在池化层1上可以得到准确的特征结果。在卷积层2使用较大的卷积核来分析两个相隔较远的部分之间的关系，如数据包中有效载荷的信息。在卷积层中，使用不同的卷积核分别在前一层的特征图上滑动，扫描特征图上的值进行内积求和，再通过激活函数计算非线性映射，从而得出当前层的特征矩阵，公式表示为：其中，ω式(2)为卷积层激活函数，其中k为特征图中通道数量，A为Z向量通过激活函数的输出向量。式(3)表示池化函数，其中p为预先指定的参数。在卷积层进行特征提取后，输出的特征图会被传递至池化层进行特征选择和信息过滤，将特征图中单个点的结果替换为其相邻区域的特征图统计量，保留有效特征的同时实现特征图降维，避免过拟合现象。经过两次卷积和池化操作，整个流量图像被提取到一个较小的特征块中，代表整个数据包的特征信息，该特征块作为时序特征提取部分的输入层。1.3 数据包时序特征提