特征提取与两种BP 算法在入侵检测中对比.docVIP

下载本文档

9
0
约2.61千字
约 6页
2018-06-23 发布于福建
举报
版权申诉

特征提取与两种BP 算法在入侵检测中对比.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

特征提取与两种BP 算法在入侵检测中对比

特征提取与两种BP 算法在入侵检测中对比　　摘要：针对海量的等保测评数据，如何从这些数据中选取适量的数据进行入侵行为分析，提出了根据预测变量对预测目标变量的重要性的特征提取方法。该方法采用importance指数来对预测变量进行等级划分。并选取了一些预处理后的数据运用了两种BP算法——标准BP算法和学习速率自适应调整算法进行了系统仿真预测。通过KDDCup99数据集测试表明，后者相对于前者，其学习训练次数大大降低，学习能力和预测准确率明显提高。　　关键词：特征提取；标准BP算法；学习速率自适应调整算法　　中图分类号：TP391 文献标识码：A 文章编号：1009-3044（2013）28-6365-04 　　随着信息系统等级保护工作的深入开展，将产生海量的测评数据，尤其是主机和网络数据的数据量非常大 [1]。但如何利用这些数据来检测系统是否遭到攻击，这就需要对数据进行特征提取。文中以KDDCup99数据为例，阐述了如何从海量数据中，根据预测变量对预测目标变量的重要性，提取出重要程度大的特征值，也就是确定了哪些字段来参与数据建模。然后在这些数据的基础上，采用两种BP算法，利用BP神经网络，对这些攻击行为进行预测结果对比。　　1 系统特征信息提取　　1.1 KDDCup99数据　　KDDCup99数据集[2]是从一个模拟的美国空军局域网上采集来的9个星期的网络连接数据，分成具有标识的训练数据和未加标识的测试数据。训练数据包含了将近五百万条连接记录，测试数据包含了二百万条的连接记录。但是测试数据和训练数据有着不同的概率分布，测试数据包含了一些未出现在训练数据中的攻击类型，这使得入侵检测更具有现实性。[3] 　　1.2 特征提取　　KDDCup99训练数据集中每个连接记录包含了41个固定的特征属性和1个类标识。[4]为了特征提取的方便，把41个固定的特征属性分别用字段来表示，并把它们作为预测变量；把类标识用字段A42表示，并把它作为预测目标变量。然后根据预测变量对于预测目标变量值的重要程度来进行分级，并用importance指数[5]来表示这个重要程度。但是所有预测变量的值有些是连续型，有些是离散型，那么对于连续型预测变量采用基于F统计[6]的p值来计算importance指数；对于离散型变量，则用基于皮尔逊卡方[7]的p值来计算importance指数。这里importance指数的阈值设定如下：　　1）重要。0.93≤importance≤1；　　2）一般重要。0.9 　　2.3.3 预测结果分析　　实验中，共收集了200例数据，其中导致异常程序行为的程序输入80例.具体实验时，将80例异常数据平均分为两部分，其中40例与正常的120例数据一起用于训练神经网络，另外40例异常数据用于测试.根据表3知，当隐层8结点数为7时的BP神经网络表现最好。因此在测试过程中选取了隐含层层数为7层时的BP神经网络作为测试网络。在训练好后的网络中将40例异常数据分别输入到采用标准BP算法和学习速率自适应调整算法的BP神经网络中进行测试，得到的结果如图2和图3所示。　　由图2和图3结果表明，采用学习速率自适应调整算法的BP神经网络进行入侵检测时，预测值与实际值完全相符的点数为28，比标准BP网络要多3倍以上；逼近值也比标准BP网络更接近1，其逼近值在0.8～0.9之间的有9个，其余3个的逼近值皆在0.99～1之间。根据测试实验时设置的精确度为0.01，可以得到表3这个结果。表中　　实验结果表明，在入侵行为比较清晰的情况下，学习速率自适应调整算法在BP神经网络中的预测结果比标准BP算法的预测结果要准确的多；在BP神经网络中使用学习速率自适应调整算法作为入侵检测的一种方法，灵活性更好、自适应能力更强、预测精度更高。但是整个预测准确率也不是很理想，这可能由以下原因造成：　　1）训练期间，神经网络已被训练得过渡吻合；　　2）训练迭代次数过多；　　3）用于训练的特征属性选取不合理；　　4）推导出的规则的选择数量过多，例如只选用质量最好的头20条，而不是40条。　　3 结束语　　本文从等保测评产生的海量数据入手，以KDDCup99数据为例，给出了特征提取的规则，又对提取出来的特征值选取了一定数量的数据运用了两种BP算法进行了入侵检测，并对结果进行了比较和分析。学习速率自适应调整算法相对标准BP算法，缩短了训练时间，提高了学习效率，又增加了算法的可靠性，降低了入侵检测中的误报率，大大提高了入侵检测的性能。　　参考文献：　　[1] 吴涛.建设符合等级保护要求的信息安全体系——电子政务信息系统等级保护工作的研究与探索 [J]. 通信技术，2008，41（9）：196-198.